时间: 2019-07-10 12:17
这样做的前提假设是虽然不同语⾔的词向量不同,但是它们在空间中具有相似的⼏何学分布。
如图1,经过简单的翻转,英⽂单词“basketball”、“player”和“guard”的向量表⽰分别与中⽂单词“篮球”、“运动员”和“后卫”对应。
Cao等人提出借鉴领域迁移的思想,并假设词向量空间符合⾼斯分布,通过图1单语⾔词向量空间⽰例:经过简单的线性映射(如翻转),不同语⾔的词向量空间具有相似的⼏何分布。
图1
拟合不同语⾔词分布的均值和⽅差,进⽽得到统⼀的语义向量空间 [137] 。
但⾼斯分布的假设在很多情况下与现实不符,于是 Ruder 等⼈ [138] 提出引⼊⽣成式对抗⽹络 [139] 的思想,使⽤对抗⾃编码器模型 [140] (Adversarial Autoencoders)通过⽣成器从源语⾔的词向量分布中⽣成⽬标语⾔词向量,并试图欺骗语⾔分类器,使之⽆法准确的进⾏分类,同时从⽣成的⽬标语⾔分布中解码回源语⾔以防⽌⽣成器退化到病态解:即收敛到若⼲个简单的⽬标语⾔情况实现完美的欺骗。
Zhang 等⼈ [141]进⼀步对⽣成器加以限制,令解码的过程使⽤⽣成器矩阵的转置完成,进⼀步缩⼩⽣成器的训练难度。
参考文献:
[138] Ruder S. A survey of cross-lingual embedding models. CoRR, 2017.
[140] Makhzani A, Shlens J, Jaitly N, et al. Adversarial autoencoders. CoRR, 2015.
[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。