智谱华章-AI发掘科技创新原动力

您的位置:智谱华章官网 > 公司新闻 > 新闻发布 > 新冠知识图谱开放数据集

新冠知识图谱开放数据集

发布日期:2020-03-02 18:29浏览次数:

开源开放 | OpenKG组织发布第二批并更新近十个新冠知识图谱开放数据集

 

(本文经授权转载自“开放知识图谱”)

 

2020年2月11日,世界卫生组织宣布了新型冠状病毒肺炎官方正式命名为 COVID-19,21日国家卫健委决定与世界卫生组织保持一致,中文名称不变。随着关于新型冠状病毒病毒疫情的不断发展,有关疫情的各类信息也在不断更新。OpenKG 紧随疫情发展,继续发布新领域的新冠知识图谱,同时对已经发布的图谱进行持续不断的更新。

 

本次主要新增清华大学和妙医佳健康科技联合构建新冠健康图谱、浙江大学与华为云联合构建的病毒药物和病毒亲缘关系等图谱、河海大学与小米人工智能实验室构建的新冠热点事件图谱,武汉科技大学等单位构建的新冠物资、IBM中国研究院等构建的流行病学图谱 (实例数据更新中)。同时来自同济大学、浙江大学、东南大学、海乂知信息科技、文因互联、小米人工智能实验室、复旦大学等分别更新了百科图谱、科研图谱、临床图谱、英雄图谱等部分的数据。近期我们还将发布新冠防控图谱

 

OpenKG 发布的所有新冠知识图谱都基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议,供大家免费下载使用。持续更新,敬请关注!

 

此外,在 OpenKG 的知识图谱众包平台 OpenBase 上,我们还将展开新冠知识图谱众包,欢迎大家为高质量的中文知识图谱贡献力量。

 

新冠图谱专题链接:

http://openkg.cn/group/coronavirus

 

1.新冠百科图谱 V1.1

 

图谱链接:

http://www.openkg.cn/dataset/covid-19-baike

 

1.1 更新记录

 

  • 相较于第一版,第二版修改了数据爬取范围,通过重新抓取百科数据,提升了整个图谱数据规模。实体数扩展至54318,三元组数扩展至270807,关系数和属性数分别扩展至22和50个。

 

  • 对百科实体进行了类别推断,根据不同类别的实体特点,拓展了schema的属性部分。

  • 通过三元组和文本分析挖掘和构建了新的实体关系网络。

 

1.2 简介以及潜在应用

 

新冠百科图谱包括病毒、细菌、流行病、传染病等相关实体。作为新冠领域知识图谱的基础,图谱以病毒、细菌为主体,扩展了治疗,疾病等相关内容,通过了这些概念的百科知识,形成了新冠百科图谱。除了新冠相关的实体外还涵盖了过往疫情。

 

潜在应用:面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。

 

后续工作中,将从百度百科,互动百科,中文维基百科,医学百科中进一步挖掘病毒,细菌,疾病,医学之间的关系。采用基于本体的信息抽取技术,扩充实体的属性信息。同时,完成与zhishi.me等通用知识图谱的链接。

             

1.3 可视化样例

 

新冠知识图谱

 

2.新冠科研图谱 V1.1

 

图谱链接:

http://www.openkg.cn/dataset/covid-19-research

 

2.1 更新记录

 

  • 科研图谱新增病毒药物、病毒亲缘关系、新冠病毒基础信息三个数据库和数据集,并更新病毒分类图谱

 

2.2 概要介绍

 

在第一阶段的发布版本中,我们从病毒的生物学分类角度出发,以NCBI美国生物信息中心 Taxonomy 板块下的数据为基础,构建了一个病毒的族系网络——病毒分类图谱。该图谱具有较大的规模,其中实例的数量达20w以上,三元组的数量更是达到了190w+。但是其在分类及族系关系以外未引入其他信息,具有一定的局限。

 

通过与医药、生物学相关科研人员的交流及合作,从专业的角度了解病毒差异的来源以及区分/联系不同病毒的重要属性;同时,通过与华为云语音语义创新Lab及华为云医疗智能体团队开展合作,从不同科研内容角度展开多方面的工作,期望通过双方深入的交流及合作,共同构建并完善用于科研用途的知识图谱。

 

当前工作建立在不断完善schema的基础上, 通过梳理病毒、基因、蛋白、药物等相关概念,围绕新型冠状病毒、抗病毒药物等展开工作。从病毒的基因,蛋白,宿主以及核苷酸序列等相关信息出发,基于NCBI数据库中新冠病毒(COVID-19)相关数据,构建新冠基本信息图谱 V1.0。从抗病毒药物、Human Protein、Virus Protein、宿主等信息出发,基于DrugBank等数据库的数据,构建抗病毒药物图谱 V1.0。

 

除此之外,考虑到病毒流行学是重要的科研方向,我们从该角度出发,以Gisaid全球流感数据库所提供的实时新冠病毒sequence数据为基础,结合nextstrain对于新冠病毒基因组流行病学的分析及相关算法, 整理出了一个短期病毒突变的连接网络——病毒亲缘关系图谱v1.0。其中包含了地理,时间,变异度,突变的基因蛋白等信息,为后续的相关研究(病毒溯源)及图谱的融合提供支撑。

 

2.3 潜在应用

 

在后续对于其他属性进行补充与关联,扩充图谱之后,数据集可用于尝试以下应用:

 

(1)预测新病毒的生物学分类,新物种发现

(2)预测病毒变异性

(3)预测病毒热稳定性

(4)预测病毒的易感群体、宿主

(5)预测病毒的致病部位

(6)预测病毒可导致的症状,可缓解症状的药物

(7)潜在治疗的药物,如老药新用

(8)预测病毒的传播途径、传播种类

(9)预测可能与病毒蛋白相互作用的蛋白,发现新的蛋白靶点

(10)针对新的蛋白靶点,进行药物开发

(11)病毒溯源,病毒变异的分析与预测

 

2.4 图谱可视化 

 

(1)病毒分类图谱 V1.1

 

parent关系用于连接Resource之间的层级关系,比如COVID-19病毒在其家族树种的上层结点是unclassified Betacoronavirus。通过parent关系可向上遍历家族树。

species、genus、family等关系用于直接连接病毒与其属类别、种类别结点。这样即可不通过遍历家族树直接找到其属。

broader用于连接不同的家族概念,比如Genus属就是Species种的一个更宽泛的家族概念。

 

虚线中的关系和概念是未来工作中会添加的关系和连接的实体类型。比如病毒的基因实体、蛋白质实体、宿主实体等等。

 

病毒分类图谱

 

(2)新冠基本信息图谱 V1.0 (新增)

 

如下图可视化展示,express表示SARS-CoV-2与其表达基因间的关系,例如SARS-CoV-2表达membrane protein gene (M), Envelope protein gene(E) 等类型的基因;

 

translate表示基因与蛋白间的翻译关系,例如SARS-CoV2的M基因可翻译出membrane protein;另外,我们又用produce关系表示SARS-CoV-2可产生对应的蛋白,例如产生orf1ab polyprotein。

 

为了进一步表示SARS-CoV-2和宿主的关系,我们使用host表示,目前图谱中的宿主实体主要是human和vertebrates。

 

新冠基本信息图谱

 

(3)抗病毒药物图谱 V1.0 (新增)

 

如下图可视化展示,effect关系用于表示抗病毒药物对于病毒有一定效果,例如Abacavir和Lopinavir对Human  immunodeficiency virus 1有抗病毒效果,通过本关系可查看抗病毒药物和对应病毒间的联系;

 

produce关系可用于挖掘病毒与其所表达蛋白间的express关系,并可进一步挖掘不同病毒与同一类型蛋白间的关系,进而发现两个病毒间的间接关系;再通过某病毒与某抗病毒药物间关系,又可发现某抗病毒药物和另一病毒的间接关系;可以帮助发现对于某一类型病毒蛋白可能有作用的更多药物。

 

Interaction和binding关系可以用于发现病毒蛋白与宿主蛋白间的相互作用,比如HIV1的NP(nucleoprotein)和Human的HYOU1 和间的binding关系;之后可再补充某些药物和HYOU1间的target关系,进而可以研究这些药物和HIV1的NP(nucleoprotein)间的作用.

 

通过belong to关系,可以明确哪些蛋白属于哪类宿主,这类宿主的哪些蛋白与病毒有相互作用关系等。

 

在属性方面,我们又进一步从DrugBank挖掘了这些信息(商品名、化学式,分子重量,indication等),作为drug实体的属性,使得研究者可以更直观的了解某drug的一些重要信息。之后我们会进一步完善补充更多关键实体的重要信息。

 

抗病药物图谱

 

(4)病毒亲缘关系图谱 V1.0 (新增)

 

如图所示,图中有Strain毒株,Branch分支,Country国家,State区域和City城市这些实体类型,其中地理位置与Strain毒株的连接通过from_country, from_division和from_location来标识。Country,State,City互相连接构成网络。

 

对于Strain毒株的属性,包括了AA变异,核苷酸突变,与上一分支的差异率等等信息,展示在图中的表格中。其中变异数据和差异率数据都是相对mutate_from_branch指示的Branch结点来说的,而Branch也相对上层的Branch,因此最终的Strain突变应当是整个树目录突变的总和。

 

病毒亲缘关系图谱

 

2.5 数据来源及规模

 

数据来源:

  • NCBI中的Taxonomy板块     截止至2020.2.21

    https://www.ncbi.nlm.nih.gov/Taxonomy

  • 全球流感数据库                   截止至2020.2.21

    https://www.gisaid.org

  • Nextstrain网站                   截止至2020.2.21

    https://github.com/nextstrain/ncov

  • DrugBankVersion 5            截止至2019.08

  • NCBI Taxonomy COVID-19数据       截止至2020.2.20

  • VirHostNet1.1                                   截止至2019.01

  • Virus Pathogen Database                截止至2020.02

 

数据规模:

病毒分类图谱 V1.1

  • 概念:16个                       

  • 实例:205500个

  • 对象属性:15个

  • 三元组数目:2140191个

新冠基本信息图谱 V1.0

  • 概念:4个                       

  • 实例:470个

  • 对象属性:7个

  • 三元组数目:2096个

抗病毒药物图谱 V1.0

  • 概念:5个                       

  • 实例:7845个

  • 对象属性:27个

  • 三元组数目:60662个

新冠亲缘关系图谱 V1.0

  • 概念:6个                       

  • 实例:233个

  • 对象属性:15个

  • 三元组数目:2071个

 

3.新冠健康图谱 V1.0

 

图谱链接:

http://www.openkg.cn/dataset/covid-19-health

 

3.1 简介以及潜在应用

 

新冠健康图谱由清华大学和北京妙医佳健康科技联合构建,包含跟新冠肺炎相关的各类疾病、药物、症状、检查、全国各地接收新冠肺炎定点医院等信息。

 

潜在应用: 流行病调查研究,基于图谱的新冠肺炎健康防护问答。

 

3.2 数据schema 

 

新冠健康图谱

 

3.3 数据来源与规模

 

数据来源

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • 百度百科

  • 北京妙医佳健康科技集团有限公司

  • 卫生健康委

数据规模

  • 概念:592个

  • 实例:7110个

  • 数值属性:89个

  • 对象属性:15个

  • 三元组数量:51575个

3.4 可视化的图谱样例

 

 

图例说明:方形代表概念(class),圆形代表实例(instance),悬浮到连线上显示的是两者的关系(relation)。

 

4.新冠物资图谱 V1.0

 

图谱链接:

http://openkg.cn/dataset/covid-19-goods

 

4.1简介以及潜在应用

 

新冠物资图谱包含防控新型冠状病毒所需要的各类物资,主要包括医用防护装备、日常防护用品、医用诊疗设备以及治疗用药。其中,医用防护装备包含了医用手套、口罩、隔离服等;日常防护用品包含洗手液、消毒用品等;医用诊疗设备包含常规检查设备和氧疗设备;治疗用药包含了《新型冠状病毒感染的肺炎诊疗方案》多个版本中的中、西药品。

 

示例问题

问:在疫情期间,如果出门买菜,带哪种口罩比较好?

答:选择医用外科口罩、N95口罩、KN95口罩即可,但是目前医用口罩比较稀缺,建议供应给一线使用。

问:如果买不到N95和医用外科口罩怎么办?

答:如果没有适合的口罩,您可以使用医用护理口罩,建议戴2层,防护性能会好一些,使用完毕后一定要洗手,并将口罩外用塑料袋或者纸巾包住,丢入垃圾桶内。

 

4.2 数据来源与规模

 

数据来源:

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • 《国家基本药物目录》

  • 《全国卫生行业医疗器械、仪器设备(商品、物资)分类与代码》

  • 红十字会官网 http://www.wuhanrc.org.cn/

  • 百度百科

数据规模:

  • 概念:165个

  • 实例:132个

  • 数值属性:56个

 

4.3 可视化样例

 

新冠物资图谱

 

5.新冠流行病学图谱 V1.0

 

图谱链接:

http://openkg.cn/dataset/covid-19-epidemiology

 

本次预发布流行病图谱 schema,实例数据待更新。

 

5.1 简介以及潜在应用

 

新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例(待更新)。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在2019年~2020年2月期间,COVID-19疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。

        

新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。

 

新冠流行病学图谱

 

5.2 数据schema

 

流行病学知识图谱的schema定义了流行病学的基本概念,例如:流行病、病原体、宿主、疫情、流行病学调查、调查方法、调查人群、被调查个体、调查报告。其中主要对病原体、流行病学调查和调查报告进行了详细定义。详见下图。

 

数据schema

5.3 数据来源与规模

 

数据来源:

  • 王建华,刘民,《流行病学-第7版》人民卫生出版社

  • 陈清,徐德忠,《流行病学复习考试指导》人民军医出版社

  • 各地卫健委公开信息

数据规模:

  • 概念:49 个

  • 实例:6  个

  • 数值属性:34个

  • 对象属性:19个

  • 三元组数量:374 个

5.4 可视化的图谱样例

 

可视化的图谱样例

 

6.新冠热点事件图谱 V1.1

 

图谱链接:

http://www.openkg.cn/dataset/covid-19-event

 

6.1 更新记录

 

  • 加入新的150份政府各部委的政策通告文件的事件抽取结果。

  • 添加schema中的政策事件的相关概念和属性。

  • 加入初期的事件类型标签。后期会进一步完善事件关键词抽取的结果。

6.2 简介以及潜在应用

2月13日,据人民日报报道:湖北报告新增确诊病例14840例,含临床诊断病例13332例。根据《新型冠状病毒感染的肺炎诊疗方案(试行第五版)》,在湖北省的病例诊断分类中增加了“临床诊断”,以便患者能及早按照确诊病例接受规范治疗,进一步提高救治成功率。此项政策一出,可以有效控制疫情的增长,并且预示着更多的疑似患者会得到治疗。从中我们可以看到,政府、医院出台的一些政策、举措都会一定范围地影响下一步的疫情发展。

 

从此上面这个事件可以明显看出,疫情期间发生的各种政策变化、新闻事件、社会舆论甚至国际评论均有可能影响到疫情数据的发展变化。鉴于此,小米人工智能实验室团队联合河海大学计算机学院一起构建了新冠热点事件图谱,用以对疫情发展脉络的梳理和未来进展方向的预测。

 

当前版本的热点事件图谱支持对新冠病毒事件在时间轴上的正向和反向索引,事件本身发展脉络的枚举和事件的查证溯源。后期会在数据层面上加入对事件的谣言鉴别基础功能的支持。

6.3 数据schema

 

 

6.4 数据来源与规模

 

数据来源:

 

  • 人民日报

http://activity.peopleapp.com/broadcast/?from=timeline

    

  • 丁香医生

https://ncov.dxy.cn/ncovh5/view/pneumonia

    

  • 腾讯

https://news.qq.com/zt2020/page/feiyan.htm

 

  • 新浪微博

https://m.weibo.cn

 

数据规模:

  • 概念:4个                         

  • 实例:640个

  • 对象属性:17个

6.5 图谱可视化

 

图谱可视化

 

7.新冠临床图谱 V1.1

 

图谱链接:

http://www.openkg.cn/dataset/covid-19-medical

 

7.1 更新记录

 

根据最新的新冠肺炎诊疗方案第六版文件进行图谱模式更新及数据补充。

 

完善schema中药及药品部分的属性和关系,中药新增属性药理作用、性味、性状、中药基原、适用症,药品新增子概念化学药、中成药,新增属性禁忌、适用症。

 

7.2 简介以及潜在应用

 

临床图谱从目前已有的规范文件入手,基于诊疗规范(流行病学+症状+实验室指标+治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园), 将研究进展与科研相关联。

 

图谱以新型冠状病毒(COVID-19)为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于图谱进行知识问答。

 

7.3 数据来源与规模

 

数据来源:

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • Wiki百科

  • 中医药知识服务平台 http://www.tcmkb.cn/ 

  • 医疗器械分类目录 https://db.yaozh.com/fenleimulu?from=www&position=index_hotdb 

  • https://github.com/liuhuanyong/QASystemOnMedicalKG

数据规模:

 

  • 概念:43 个

  • 实例:759 个

  • 数值属性:341 个

  • 对象属性:1348 个

7.4 可视化样例

 

新冠临床图谱

 

8.新冠英雄图谱 V1.1

 

图谱链接:

http://www.openkg.cn/dataset/covid-19-character

 

8.1 更新记录

 

  • 构建新的实体关系网络,如人物间的队友、同事关系等。

  • 根据目前的疫情发展情况实时更新热点人物,拓展图谱规模。

 

8.2 简介以及潜在应用

 

新冠英雄图谱包括了医疗专家组、因公殉职英雄、武汉当地和全国各地的意见领袖等,涉及生平事迹和基本属性,并与新冠百科、新冠科研、新冠临床、新冠防控等图谱中的一些概念或实体关联。

 

图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。

 

8.3 数据来源与规模

 

数据来源:百度百科、微信公众号、知网、澎湃新闻

 

数据规模:

  • 概念:21个

  • 实例:797个

  • 数值属性:345个

  • 对象属性:1209个

目前图谱中共包含123人个人物,其中包括5位专家人员,27位因公殉职人员,医疗队代表人员91位。具体名单如下:

 

 

8.4 可视化图谱样例

 

新冠英雄图谱

   

 

主要贡献者

 

总体协调人

王昊奋,陈华钧 ,漆桂林

 

1. 新冠百科图谱

东南大学:李志强,秦旭,许茜,李林,殷春锁,吴亦珂,王然,吴天星,漆桂林

 

2. 新冠科研图谱

浙江大学:陈卓,吴杨,邵鑫,杨海宏,毕祯,叶宏斌,方尹,陈华钧

华为:郑毅,张雷,王鹏,章涛,刘登辉,徐迟,袁晶,乔楠,怀宝兴

 

3. 新冠健康图谱

清华大学:许斌,毛亦铭,阎婧雅,初凤灵,吴高晨,仝美涵,孙静怡,李子明,陈秋阳,李凯曼,郑晓飞

北京妙医佳健康科技集团有限公司:刘邦长,常德杰,闫广庆,季科

 

4. 新冠物资知识图谱

武汉科技大学:刘宇,徐航,向军毅,顾进广

 

5.新冠流行病学图谱

IBM中国研究院:李静,王健,蒋建民,王轲,王彦菲,梅婧

 

6.新冠事件知识图谱

河海大学:唐彦,张作为,王鲁威,张呈阳

小米人工智能实验室:刘作鹏,王献敏,彭茜 ,戴振

 

7. 新冠临床图谱

海乂知信息科技:蔡嘉辉,冯莉

文因互联:杜会芳

同济大学:王昊奋

 

8. 新冠英雄图谱

海乂知信息科技:王智凤,蔡嘉辉,李一斌

同济大学:王昊奋

 

9.新冠防控图谱

武汉科技大学:胡丹阳,王萌,李秋,刘宇,顾进广

东南大学:张振志,胡润秋,徐毅男,张涛,史淼,郭文孜,黄红蓝

 

10.其他技术支援

OpenKG:尚忆秋

文因互联:耿新鹏

浙江大学:李娟

上海分布科技:胡凝

 

 

 

OpenKG

 

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

开放知识图谱