智谱华章-AI发掘科技创新原动力

您的位置:智谱华章官网 > 公司新闻 > 硕博论文 > 融合实体的事件话题知识学习其二:事件层次实

融合实体的事件话题知识学习其二:事件层次实

发布日期:2020-02-18 16:45浏览次数:
本章提出了⼀个⾮参层次实体话题模型HETM,⽤于新闻的层次话题构建。该模型考虑了新闻时效性以及话题和实体之间的关系。并且提出⼀种快速的在线推理算法,⽤于HETM 模型的在线求解,使得HETM 适⽤于新闻流数据。HETM 相⽐HLDA 显著提⾼了话题质量和时间效率,使⽤基于基于Gibbs 采样的在线推理算法,o-HETM 进⼀步提⾼了时间效率,适⽤于新闻流数据。
回顾:融合实体的事件话题知识学习其一:事件实体话题知识学习
这种新的层次实体话题模型(Hierarchical Entity Topic Model, HETM)以及在线推理⽅法,⽤于新闻流的动态层次话题知识学习。如图1所⽰,“马航MH370 失联”事件包含话题“搜查和营救”,该话题又包含话题“乘客信息”和“⽔上搜救”。该任务存在以下挑战:⾸先,由于新闻数据是连续的流式的,数据不能⼀次处理,只能增量式处理。其次,由于实时响应的需要,算法需要具有⾼效性。
此外,新闻数据是时间敏感的。最后,事件中实体(⼈物、时间、地点、组织机构等)具有重要作⽤,描述了事件的关键信息[31]。这些挑战则需要算法符合以下要求:1)增量式的; 2)实时的; 3)考虑新闻时间信息; 4)能够建模话题和实体之间的关系。因此,我们提出了⼀个在线层次实体话题模型(online Hierarchical Entity Topic Model, o-HETM)从快速新闻流中⾃动学习层次话题知识。具体地,我们将时间因素融⼊嵌套中餐馆过程nCRP(nested Chinese Restaruant Process),基于此构建⾮参层次话题模型,该模型建模了话题和实体之间的关系。为了使模型能够应⽤于在线新闻流数据,我们提出了在线Gibbs sampler,⽤于模型在线求解。

图1 | “马航MH370 失联”事件层次话题结构

在事件实体话题知识学习中,我们考虑了融合实体信息对事件⽂档中的话题进⾏建模。然⽽,我们没有考虑话题之间的层次关系,这⼀节中,我们考虑事件层次话题知识学习。随着互联⽹的发展,⼤量连续的新闻报导已经使得⽤户不堪重负。学习动态的层次话题知识,将新闻按照不同粒度的话题进⾏组织可以使得⽤户能够尽快找到⾃⼰感兴趣的新闻,理解事件内容。然⽽,这个问题因为新闻的动态性和时间敏感性⽽⾮常具有挑战。

图2 | CorrLDA2 和EETM 模型的话题结果对⽐

事件层次实体话题知识学习的输⼊是事件的新闻⽂档集合= {d1, d2, …, dm|,输出是层次话题知识= {TR},其中= {t1, …, tK} 是话题集合。已有的层次话题模型如HLDA 没有考虑实体信息,我们提出层次实体话题模型HETM,融合事件实体信息。为了让模型适⽤于在线新闻流,能快速增量处理新闻⽂档,我们提出在线推理算法,从⽽得到在线层次实体话题模型o-HETM。
事件层次实体话题模型
在本节中,我们详细介绍了我们提出的在线层次实体话题模型o-HETM,⽤于新闻流数据的动态层次话题知识学习。
我们⾸先介绍时间相关的嵌套中餐馆过程(Time-Dependent nested Chinese Restaurant Process, Time-Dependent nCRP),该过程考虑了新闻的时效性。其次,我们介绍基于嵌套中餐馆过程的模型HETM,该模型结合了层次主题模型HLDA[1] 和模型CorrLDA(Correspondence Latent Dirichlet Allocation)[2] 的优点。最后,我们提出HETM 的在线推理算法,构建o-HETM 模型。
时间相关的嵌套中餐馆过程
如HLDA[1] 中所描述, 嵌套中餐馆过程(nested Chinese Restaurant Process, nCRP)能够产⽣树的先验,不限制树的⼴度和深度。它假设有⽆限多个中餐馆,每个中餐馆又有⽆限张桌⼦。⼀个顾客⾸先进⼊⼀个中餐馆,该中餐馆有⽆限张桌⼦,每张桌⼦指向了另⼀个中餐馆,每个中餐馆仅被指向⼀次。进⼊⼀个中餐馆后,顾客根据中餐馆过程(Chinese Restaurant Process, CRP)选择⼀个桌⼦,进⼊这个桌⼦指向的下⼀个中餐馆,依此类推,这个结构可以被重复⽆限多次,形成⼀颗⽆限⼴⽆限深的树。
中餐馆过程CRP 假设顾客更倾向于到⼈多的桌⼦上。具体地,第⼀个顾客坐到第⼀张桌⼦上,第⼆个顾客既可以选择坐在第⼀张桌⼦上,也可以选择坐在⼀张新的桌⼦上,第+ 1 个顾客到来的时候,假设已经有张桌⼦上有顾客了,分别坐了n1, n2, ..., nk 个顾客,那么第+ 1 个顾客可以以概率为 ni/(ϒ+n) 坐在第张桌⼦上,ni 为第张桌⼦上的顾客数;同时有概率为+n 选取⼀张新的桌⼦坐下。
本章中,考虑新闻的时效性,我们提出了⼀个时间相关的嵌套中餐馆过程Time-Dependent nCRP。该过程假设⼀个顾客容易被之前不久的顾客影响,但是对于之前⽐较久远的顾客影响较⼩。因此,在时间相关的嵌套中餐馆过程中,为⼀个顾客分配桌⼦时,使⽤⼀个时间折扣函数。我们⽤表⽰时间,第+ 1 顾客在时刻以概率γ/(γ+n’)选择⼀张新的桌⼦,其中n′ 表⽰时刻时的总的考虑顾客权重(权重由时间因素决定)计算得到的顾客数量。该顾客以概率n′+n′ 坐在第张桌⼦上,n′i 为第张桌⼦上的考虑权重的顾客数。
其中Δ 表⽰时间宽度,λ是时间衰减因⼦。在时间相关的嵌套中餐馆过程中,我们只考虑距离当前时间段t在Δ 范围内的时间段的顾客对当前顾客的选择会产⽣影响。参数_ 控制了不同时间段到来的顾客对当前顾客的选择产⽣不同的影响,越是相隔时间近,则影响越⼤;反之,越⼩。当Δ = 0 时,时间相关的嵌套中餐馆过程只考虑当前时间段的顾客。当Δ = 时,则考虑所有时间段的顾客,当Δ = t, λ = + ∞时,时间相关的嵌套中餐馆过程则退化为嵌套中餐馆过程。
在线层次实体话题模型
本节中,基于时间相关的嵌套中餐馆过程,可以构建层次实体话题模型HETM。我们将⼀个⽂档看成⼀个顾客,该顾客⾸先从作为根节点的餐馆进⼊,模型为其选择⼀张桌⼦,顾客就来到了由该桌⼦指向的更深⼀层的餐馆。依此类推,每个⽂档最终能得到⼀条路径,路径上的每个节点代表⼀个话题。⽆限树的深度由折棍过程(Stick-Breaking Process)控制,该过程有两个参数(m, π),其中,∈ (0, 1) 控制了棍⼦长度的均值,π > 0 决定了棍⼦长度的⽅差[1] 。折棍过程假定有⼀根棍⼦的长度等于1。我们从(0, 1) 范围根据Beta(mπ, (1-m) π) 分布采样棍⼦长度Vi。在⼤多数应⽤中,我们固定树的深度为L。因此,对于最后⼀层L,棍的长度为:
这些长度对应于路径上的话题概率,形成⽂档在话题上的先验分布。对于⽂档每个词所在的位置,先从这L个话题上采样⼀个话题,然后根据话题采样词。在采样得到所有词后,我们根据所有词的话题的均匀分布,对⽂档每个实体的位置,采样⼀个话题,再根据话题到实体的分布采样实体。
表1 | 符号表
表1中总结了本章中⽤到的所有符号。提出的层次实体话题模型HETM 的图表⽰如图3所⽰。模型假设有⼀颗⽆限⼴的树,深度为L。它结合了层次话题模型HLDA[1] 和实体话题模型CorrLDA[2] 的优点,即它不仅可以⽣成新闻数据结构化的话题层次还可以建模话题和实体之间的关系。因此,它可以更适⽤于新闻数据。模型假定⽂档⽣成过程如下:



图3 | HETM
如⽣成过程所⽰,⾸先,我们将树上的每个桌⼦(话题)关联⼀个先验词分布和先验实体分布。⽣成⽂档d时,我们⾸先根据时间相关的中餐馆嵌套过程(由参数 ϒ 和 δ 控制)确定其路径。然后从折棍过程(由参数 (m, π) 控制)采样得到⽂档的话题分布。接下来⽣成⽂档的词和实体,该过程与实体话题模型CorrLDA[2] 相似。⾸先,我们为单词w 采样话题,然后根据所有单词的话题的均匀分布,为实体采样话题。因此,我们可以学习话题和实体之间的关系。
上述模型⽣成得到的树结构即为我们要学习的层次事件话题知识= {TR},树上的每个节点表⽰⼀个话题ti ∈ T,树上的层级关系是话题之间的⽗⼦关系 (ti, tj ) ∈ R
在线推理算法
在本节中,介绍模型HETM 的在线推理算法来适应新闻流数据。我们应⽤吉布斯采样算法,该算法使⽤p(zi | z-I ; w)来近似不可求解的后验分布p(z|w)。吉布斯采样利⽤了马尔可夫链,通过迭代⾜够多的次数收敛到所求的后验分布。由在线 LDA[3] 启发,我们扩展模型HETM,运⽤在线推理算法,得到o-HETM 模型。在线推理算法如下所⽰:


在算法1中,我们⾸先在前10%的数据上应⽤批量Gibbs 采样[1],这是基于假设前10% 的内容可以涵盖后续数据的⼤部分内容[3](第1 ⾏)。之后,以⽬前观测到的⽂档的所有词为条件,为每个新的词采样话题(第2-7 ⾏)。为了提⾼话题采样的准确性,我们重新处理⼀些之前的⽂档,为⽂档的所有词重新采样话题(第8-10 ⾏)。
其中,第⼀项是时间相关的嵌套中餐馆过程产⽣的路径上的先验,第⼆项表⽰给出特定路径,⽂档的概率。具体细节可以参考[1]。

其中,第⼀项是给定所有其他词的话题的条件话题分布,由先验分布和词-话题分配情况决定。先验分布是由参数 (m, π)决定的折棍过程得到,越⼤表示越上层的话题概率越⼤。

第⼆项是给定所有其他变量,词的概率分布:


具体细节,可以参考HLDA[1]。
算法收敛以后,可以得到层级结构和每个⽂档的话题路径cd,并计算得到⽂档在话题上的分布 θ,话题在词上的分布 β 以及话题在实体上的分布 β˜。
事件话题摘要
得到话题(话题表⽰为词上的分布 β以及实体上的分布 β˜)后,我们选择关键句以形成每个话题的摘要,⽅便⽤户理解话题。注意到新闻标题总结了新闻⽂章的内容,所以利⽤属于同⼀话题的新闻⽂章标题作为话题摘要的候选句⼦,通过以下⽅式选择最具有代表性的句⼦作为话题摘要。⾸先,通过选取概率p(w|z) 和P(e|z) 最⼤的10 个词和实体⽣成话题的关键词集合Wz 和实体集合Ez。第⼆,对于每个句⼦s,通过提取信息词(如名词,动词,形容词和副词等)形成句⼦的单词集合Ws,通过提取命名实体形成句⼦的实体集合Es [4]。第三,分别计算每个句⼦和话题词集合和实体集合之间的相似度(Jaccard),加权平均得到每个句⼦和话题之间的相似度。形式化地,相似度越⾼,句⼦相关性越⾼。权重参数_1 和_2 允许控制实体相⽐于词的重要性,本⽂根据实验,经验性地设置_1 和_2 分别为0.4 和0.6。

实验及结果分析
数据集
我们收集了不同话题的三个新闻数据集。第⼀个数据集(中⽂)和第三个数据集(英⽂)分别来⾃来⾃搜狐和新浪新闻⽹站,⽽第⼆个数据集(英⽂)来⾃于“The Guardian”英⽂新闻⽹站。对于每个新闻⽂档,保留其出版时间,标题和正⽂内容。对于所有的数据集,按发布时间对新闻⽂档进⾏排序,并做以下预处理:1)分词(仅⽤于中⽂数据集)和命名实体识别(利⽤ICTCLAS 或者StandfordNER); 2)删除停⽤词(例如,“a”,“the”,“of”等)。三个数据集的统计数据如表3.4所⽰,包括⽂档数量,词汇表⼤⼩和实体词汇表⼤⼩。
实验设置
我们从三个⽅⾯评估所提出的在线层次实体话题模型的有效性。
1)与当前最先进的⽅法HLDA(我们使⽤Chua 等 [5] 实现的代码)进⾏⽐较,为了公平⽐较,⼀⽅⾯使⽤相同的超参数设置,我们设置模型产⽣的树的层数为3层。和已有⽂献[1] ⼀样,设置= 0:25; π = 500; η = (1.0, 0.5, 0.25), γ = 1。对于我们的模型HETM和o-HETM中的其他超参数η˜,设置和 η 取值⼀样。另⼀⽅⾯,由于HLDA 不考虑时间因素,我们将时间宽度设置为Δ = t,衰减参数 λ = + ∞,这使得时间相关的嵌套中餐馆过程退化为嵌套中餐馆过程。我们从时间效率和话题⼀致性两⽅⾯将HETM 和o-HETM 模型与HLDA 进⾏⽐较。
2)我们将维基百科相关页⾯中⼈⼯构建的⽬录表(蕴含层次话题)作为标准结果,将我们模型的输出结果与之对⽐。我们请五位学⽣⼀起标注⼈⼯⽬录表中有效的话题(⽬录中存在⼀些标签如“参考⽂献”不是话题),然后将我们模型输出的层次话题中的话题集合与标准结果中的话题集合对⽐。
3) 对我们的⽅法学习的层次话题知识进⾏定性分析,展现了模型在数据集“2012 年美国⼤选”的部分结果。
评价指标 话题⼀致性。我们使⽤话题⼀致性来评估话题质量[6]。给定⼀个词列表,列表中的词共现的次数越多,话题⼀致性就越⼤,表明该词列表就更有可能表⽰⼀个话题。形式化地,话题⼀致性定义为:

表2 | 不同模型的对⽐实验结果
实验结果与分析 表2显⽰了不同⽅法的平均话题⼀致性分数和运⾏时间。可以看到,我们的模型HETM 在话题质量和时间效率⽅⾯都显著优于HLDA。这表明区分实体与词不仅可以发现话题与实体之间的关系,也可以提⾼话题质量和时间效率,更适⽤于新闻事件等关注实体的数据。通过在线推理算法,o-HETM 进⼀步提⾼了时间效率近20-50倍。处理⼀篇新闻⽂档的时间达到2-50 毫秒,满⾜实时新闻处理需求。但是,毫⽆疑问,与HETM 相⽐,o-HETM的话题质量较差,时间效率的⼤幅度提升需要以牺牲话题质量为代价,因此需要根据实际应⽤情况通过调节Count 参数平衡质量和时间效率的要求。
总体结果 与标准结果相⽐,我们的模型在三⼤事件“马航MH370 失联”,“2012年美国⼤选”和“2010 年智利地震”的层次话题的召回率分别为71.4%,62.5% 和90.9%。考虑到模型得到的层次话题知识是从真实的新闻数据⽣成的,⽽标准结果是没有参考新闻⽽⼿⼯构建的,62.5% 到90.9% 的召回率证明了我们的⽅法的有效性。例如,关于“2012 年美国总统选举”的标准结果中包括话题“预选”,“竞选”和“种族”,其中⼤部分可以在我们得到的层次话题知识(如图4)中找到。此外,我们的⽅法能够发现很多热门话题如“税收”和“丑闻”等。在未来的⼯作中,我们可以利⽤⼈⼯构建的维基页⾯中的“⽬录”(蕴含层次话题知识)作为半监督信息,提⾼我们从新闻⽂档中学习事件层次话题知识的质量。我们的模型在“2010 年智利地震”数据集上的召回率最⾼,得到10 个标准结果中的话题(例如“海啸”,“破坏”“政府反应”等)。只有⼀个话题“监狱逃⽣”不在我们学习的事件层次话题知识中。但是,我们的模型发现了热门话题“铜”。

图4 | “2012 年美国⼤选”的层次话题知识的主要部分

案例分析 我们仅展⽰“2012 美国⼤选”事件的部分层次话题知识,如图4所⽰。可以看到“经济”是该事件中最热的话题,包含了⼤概2/3 的新闻⽂档,该话题又包含⼦话题“⼯作”和“预选”。该事件中另⼀个较热的话题是“性丑闻”,包含⼦话题“性骚扰”和“腐败”。在话题摘要⽅⾯,可以看到“⼯作”最相关的新闻标题是”(“US politics live blog: Rick Perry’s jobs policy, New Hampshire v Nevada, Herman Cain’s 9-9-9 tax plan”(“美国政治最新博客:Rick Perry 的⼯作政策,新罕布什尔州内华达州,Herman Cain 的9-9-9 税收计划”)。总的来说,我们得到的层次话题知识与我们的常识很吻合。
参数分析 我们也测试了与时间因素相关的参数Δ(时间宽度)和λ(时间衰减因⼦)取值的不同影响,发现层次话题知识的质量对这些参数不敏感。但是,当Δ 和λ 取值较⼩时,会导致⼀些⽐较具体的话题。⾄于在线推理算法的参数,如果Count 越⼤,模型就越逼近于批量采样的算法,耗费时间越长,但层次话题知识的质量越⾼。
结论
本节提出了⼀个层次实体话题模型 HETM,从事件新闻⽂档流中动态学习层次话题知识,模型考虑了实体信息,建模了话题与实体之间的关系,并且提⾼了话题质量。为了使得模型适⽤于在线新闻⽂档流,我们还提出在线推理算法求解模型参数,显著提⾼了模型的时间效率。实验证明了与基准模型 HLDA 相⽐,所提模型的有效性和效率。
本章小结
本章提出了融合实体的事件实体话题模型EETM 和层次实体话题模型o-HETM 分别⽤于学习事件的话题知识和层次话题知识,模型不仅建模了话题与实体之间的关联关系,还提⾼了话题质量。实验证明了所提⽅法的有效性。未来⼯作中,我们可以考虑融合其他外部知识如维基百科,提⾼事件话题知识的质量。

参考文献
[1] Blei D M, Griffiths T L, Jordan M I. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies. Journal of the ACM (JACM), 2010, 57(2):7.
[2] Blei D M, Jordan M I. Modeling annotated data. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. ACM, 2003. 127–134.
[3] Canini K, Shi L, Griffiths T. Online inference of topics with latent dirichlet allocation. Artificial Intelligence and Statistics, 2009. 65–72.
[4] Hu P, Huang M, Xu P, et al. Generating breakpoint-based timeline overview for news topic retrospection. Data Mining (ICDM), 2011 IEEE 11th International Conference on. IEEE, 2011. 260–269.
[5] Chua F C T. Summarizing amazon reviews using hierarchical clustering. Technical report, Technical Reports, available at http://www. mysmu. edu/phdis2009/freddy. chua, 2009.
[6] Mimno D, Wallach H M, Talley E, et al. Optimizing semantic coherence in topic models. Proceedings of the conference on empirical methods in natural language processing. Association for Computational Linguistics, 2011. 262–272.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。