本文改编整理自丁力,谢殿侠(海知智能),陈华钧(浙江大学),漆桂林(东南大学)在杭州首届金融知识图谱论坛上的报告。
cnSchema 是 OpenKG 正在努力的一个方向,其目标就是通过复用与设计 schema,支持开放中文知识图谱应用落地。这里的 schema 就是中文知识图谱中使用的词汇集、数据字典。
从下图的实体数据中可以看到,在发布和使用开放数据中 schema 定义了实体的分类、属性和数据结构,是数据接口的关键部分。数据发布者可以通过 schema 说明“我有什么数据”,例如实体分多少类别,每种实体分别具备哪些属性和结构。数据使用者也可以通过 schema 提出“我要什么数据”,例如需要哪些类型的实体,某种实体必须具备哪些属性。
图一:基于schema.org的schema发布的数据(使用JSON-LD格式)
开放知识图谱数据发布的早期代表性科研工作有 2001 年提出的 Semantic Web【1】和 2007 年提出的 LinkedData【2】。目前实际应用中有两个著名的 schema 体系:schema.org【3】和 Wikidata (www.wikidata.org)【4】。
schema.org 是谷歌等搜索引擎公司于 2011 年推出的 schema 规范体系,指导数据发布者如何在网页中嵌入并发布结构化数据。它的核心 Schema 由一个专家组自顶向下定义,其中近 600 种核心分类覆盖了人物、机构、产品、地点等常用概念,同时它也支持垂直领域工作组进一步贡献医疗、文献、金融等领域的特定概念体系。
2016 年的统计【6】表明 schema.org 的规范已经被全球超过 5 百万独立域名网站使用,尤其是广泛覆盖了大量垂直领域的知名网站,例如电商 60%,商旅 86%,工作 70% 。美中不足的是,并非所有schema.org定义的类型和属性都被广泛使用,而且它的概念定义和数据结构也缺乏对中文市场的支持。
Wikidata 是 2012 年维基百基金会利用其高品质的众包编辑团队推出的一站式知识图谱数据管理平台。上万志愿者依据自底向上的原则自主发布或导入数据,在经过相对严格的管理员审核来保障数据质量与可信度。该网站目前拥有 2500 万实体的数据。但是,Wikidata 缺乏明确的终端应用,而且它过于庞杂的分类体系也不适于 Bot 构建领域词典。下表对比了 schema.org 和 Wikidata 在 schema 设计和应用方面的特色与差异。
表一:知识图谱schema设计与应用的对比(schema.org,Wikidata)
为了支持开放中文知识图谱应用落地,cnSchema 希望解决下面几个问题。
1)面向智能机器人(Bots)。Bots 是搜索引擎后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,而且多轮对话还要求更丰富的上下文知识。这需要知识图谱schema提供简洁灵活的数据模型支持,例如文本与结构化数据的结合,多来源数据的融合,规整的 schema 定义等。面向中文市场。cnSchema 是中文知识图谱接口的关键,不论是 schema 自身对接中文自然语言处理,还是针对中文信息中特有概念都需要支持。
2)开放的 schema。知识图谱的学习代价与构建成本都不低,希望能尽量利用现有规范标准,避免各家重新发明轮子,快速达成核心概念的简洁稳定的共识;进一步针对垂直领域的合作者,通过最佳实践帮助他们扩展领域知识图谱以支持数据发布和应用。
3)应用落地。开放中文知识图谱天生就是一个庞大的生态体系,需要有合理的方法实现成本分摊,保障数据发布者的权益,支持大家快速应用落地并实现可衡量的价值。
cnSchema 的工作正处于筹备阶段,几个代表性的工作包括(1)schemaorg 的国内镜像与中文翻译,(2)中文知识图谱核心概念的 schema 梳理与举例,(3)schema 设计原则与工具的推荐,(4)音乐,饮食,佛学等垂直领域以及通用百科在 Bot 中应用落地。更多的项目会在 GITHUB 上讨论并推进。(https://github.com/cnschema/cnschema)
欢迎对知识图谱 schema 感兴趣的同仁加入我们,共同为为建设 OpenKG 倡导的开放中文知识图谱添砖加瓦,也欢迎大家关注 cnSchema 的微信公众号,获取更多动态。
参考资料
【1】Tim Berners-Lee, Jim Hendler, and Ora Lassila, "The Semantic Web," Scientific American, May 2001, pp. 34–43.
【2】Tim Berners-Lee, Linked Data, 2006. https://www.w3.org/DesignIssues/LinkedData.html
【3】R.V.Guha, Dan Brickley, and Steve Macbeth.2016.Schema.org: evolution of structured data on the web.Commun.ACM 59, 2, 44-51.DOI: https://doi.org/10.1145/2844544
【4】Denny Vrandei and Markus Krtzsch.2014.Wikidata:a free collaborative knowledgebase.Commun. ACM 57, 10, 78-85.DOI: https://doi.org/10.1145/2629489
【5】https://github.com/schemaorg/schemaorg/tree/sdo-callisto/data/releases/3.2
【6】Christian Bizer, Robert Meusel,Anna Primpeli, Web Data Commons - RDFa, Microdata, and Microformat Data Sets,Extracting Structured Data from the Common Web Crawl,http://webdatacommons.org/structureddata/#results-2016-1
【7】https://www.wikidata.org/wiki/Wikidata:Statistics
【8】https://www.wikidata.org/wiki/Wikidata:Database_reports/List_of_properties/all
【9】https://tools.wmflabs.org/wikidata-todo/stats.php
【10】https://tools.wmflabs.org/bambots/WikidataClasses.php