数据资产富集的关联数据:可发现性与词汇表应用
1. 数据集可发现性概述
在当今的数据驱动时代,数据集的可发现性至关重要。开放数据和关联数据的发展紧密相关,关联数据作为语义网的衍生概念,被视为“正确实现的语义网”。它通过资源描述框架和统一资源标识符,让开放数据用户更轻松地准备数据混搭,促进不同数据集和数据源之间的信息连接与传播。
2. 数据集分析与标注
2.1 数据集分析方法
早期对关联数据的研究主要集中在各种统计方面,例如 ExpLOD、ProLOD、LODStats 等。而像 ProLOD++ 这样的先进方法,则旨在更深入地理解数据的底层结构和语义。Ellefi 等人在 2017 年对 RDF 数据集分析进行了广泛的调查。
2.2 数据集标注与编目
数据集的可发现性与描述它的元数据质量密切相关,因此要特别关注元数据的完整性和准确性。数据剖析更侧重于描述数据集的数字特征,而数据集描述则更贴近用户,通过使用专门设计的词汇表进行分类,能让用户更轻松地识别数据集。
一些研究涉及研究数据集的语义标注问题。Shiri 在 2014 年研究了基于 SKOS 的知识组织系统在促进大数据分析、组织、表示、可视化和访问方面的潜在应用。Singhal 和 Srivastava 在 2014 年利用万维网和已有的知识库(如 DBpedia、Yago、Freebase 和 WordNet)为研究数据集推导上下文和标注信息,发现语义标注使数据集搜索准确率比普通搜索提高了 18%。
Meusel 等人在 2015 年研究了利用机器学习技术和现有标注作为监督,实现新的关联开放数据(LOD)数据集主题