系统设计-元数据在搜索引擎中有哪些应用?

系统设计-元数据在搜索引擎中有哪些应用?

清晨说ぺ晚安 发布于 2017-02-23 字数 95 浏览 1198 回复 2

元数据被称为data about data (关于数据的数据),在一个搜索引擎系统中,该定义怎样元数据呢?

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

想挽留 2017-07-26 2 楼

所谓元数据是关于数据的数据或关于信息的信息。例如:书的文本就是书的数据,而书名、作者、版权数据都是书的元数据。

国际上比较有影响的有七种元数据,它们分别是 CDWA、DC、EAD、FGDC、GILS、TEI、VRA,这些元数据标准适用的著录对象基本涵盖了目前可能处理到的资料类型。

目前中文元数据方案有:国家图书馆古籍元数据方案、上海图书馆古籍元数据方案、上海图书馆拓片元数据方案、国家图书馆拓片元数据方案、国家图书馆地方志元数据、国家图书馆中文元数据方案、广东省中山图书馆和超星公司的数字式中文全文文献通用格式等。国家图书馆中文元数据方案在总体框架上采用了OAIS参考模型,在元数据集方面,参考了美国国会图书馆等较成熟元数据集,在保证总体框架结构的前提下,保持和都柏林核心元数据项目的对应关系,方便现有元数据得以有效利用,国家图书馆中文核心元数据集包括25个元素,他们基本上包括了对中文数字资源的描述性、管理性、技术性和法律性信息。其元数据适用的资源对象为海内外中文数字资源。确定中文元数据集后,分别定义了各自的DTD和RDF表示中文元数据。

在设计搜索引擎系统时,可以参考以上的模型。

目前中文核心元数据集有:
(1)名称Title;(2)主题Subject;(3)出版者Publisher;(4)内容摘要Abstract;(5)内容类型Content Type;(6)语种Language;(7)内容覆盖范围Coverage;(8)内容创建者Creator;(9)其他参与者Contributor;(10)内容创建日期Date of Creation;11.版本Edition;(12)版权所有者Copyright Holder;(13)资源标识符Identifier;(14)关联资源Related Objects;(15)数字资源制作者 Digital Publisher Name;(16)数字资源制作日期Digital Publisher Date;(17)数字资源制作地 Digital Pulisher Place;(18)权限声明Rights Warning;(19)公开对象Actors;(20)操作许可Actions;(21)原始技术环境Original Technical Environments;(22)加工处理历史Ingest Process History;(23)维护历史Administration History;(24)认证指示符Authentication Indicator;(25)抽象格式描述Abstract format Description。

甜柠檬 2017-06-17 1 楼

常见的应用是在HTML的head部分:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="keywords" content="系统设计,元数据,"/>
<meta name="viewport" content="width=device-width; initial-scale=1.0; maximum-scale=1.0; user-scalable=1;" />
<meta name="description" content="博客" />

另外,除了HTML外,还有PPT、DOC等格式,搜索引擎也是支持的,这时候就需要用元数据标识文件的名称、标题、作者等信息,便于搜索引擎对信息进行整理。