智谱华章-AI发掘科技创新原动力

您的位置:智谱华章官网 > 公司新闻 > 新闻发布 > 清华官方:智谱.AI与AMiner联合发布新冠疫情知识

清华官方:智谱.AI与AMiner联合发布新冠疫情知识

发布日期:2020-06-10 19:57浏览次数:

清华官方报道:智谱.AI与AMiner联合发布新冠疫情知识图谱。

 

 

报道链接:https://news.tsinghua.edu.cn/info/1416/79705.htm

 

近日,清华大学计算机系 AMiner 团队和智谱.AI 团队构建了一个大规模、结构化、中英文双语的新冠知识图谱(COKG-19)。COKG-19 旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。目前,COKG-19 包含了 505 个概念、393 个属性、26282 个实例和 32352 个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。
 
疫情暴发初期,OpenKG(openkg.cn)公布了新冠知识专题,其中包括了 8 个独立的人工或半人工整理的知识图谱,涉及健康、防控、流行病、百科、人物、医疗、物资、事件、科研等方面。然而这些知识图谱规模不一,质量不一,且存在重叠和不一致等情况。
 
团队首先通过语义匹配和排歧方法,将相同含义的概念进行合并,将同名不同义的概念进行区分。其次,根据相关专家的意见对排歧合并后的概念间关系进行修正和补充,例如删除冗余概念、细分病毒等专业子类、修正疾病的子类等。最后得到的 COKG-19 概念层共包含 505 个概念,其中顶层概念为 22 个(疾病、症状、药物、医疗设备、病毒、防控等),大致可划分为生物学、流行病学和通用百科三个方向。对于属性的排歧与合并也采取类似的语义融合方法处理,并将不同 domain 和 range 的概念进行区分,共包含 393 个属性。

 

COKG-19第一版构建流程
 

 

COKG-19第二版构建流程

 

COKG-19 的应用除了可作为基础的科研用知识数据库之外,还可以提供实体链接和知识检索等功能。融合多种知识数据之后,COKG-19 为更深层次的知识挖掘提供了非常丰富的知识数据基础。COKG-19 知识图谱的构建充分利用了开源社区(OpenKG 等)和领域专家的力量,同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法,充分展现了 AI+大数据技术在快速应对疫情过程中的广泛作用。

 

COKG-19中包含的关键实体间关联关系

 

AMiner 是清华大学计算机系研发的科技情报大数据挖掘与服务系统平台,该系统 2006 年上线,吸引了全球 220 个国家和地区的 1000 多万独立 IP 访问,数据下载量 230 万次,年度访问量超过 1100 万,已成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
 
智谱.AI 是清华控股旗下的人工智能(AI)科技公司,旨在打造先进的认知计算引擎,为研究和创新领域提供强大的数据支持和后台服务。智谱.AI 致力于通过利用其在超大规模网络分析、深度隐含语义挖掘和认知推理等技术方面的优势,帮助解决研究机构及政府机构当前面临的学术挑战及社会热点问题。