智谱华章-AI发掘科技创新原动力

您的位置:智谱华章官网 > 公司新闻 > 会议论文 > 无监督学习方法的基本思路

无监督学习方法的基本思路

发布日期:2020-02-18 16:47浏览次数:

作者: 曹艺馨

时间: 2019-07-10 12:17

为了减轻对平⾏语料的依赖,⽆监督学习⽅法的基本思路是根据语⾔内部的分布特征,直接拟合不同语⾔的向量空间。

这样做的前提假设是虽然不同语⾔的词向量不同,但是它们在空间中具有相似的⼏何学分布。

如图1,经过简单的翻转,英⽂单词“basketball”、“player”和“guard”的向量表⽰分别与中⽂单词“篮球”、“运动员”和“后卫”对应。

Cao等人提出借鉴领域迁移的思想,并假设词向量空间符合⾼斯分布,通过图1单语⾔词向量空间⽰例:经过简单的线性映射(如翻转),不同语⾔的词向量空间具有相似的⼏何分布。

图1

 

 

拟合不同语⾔词分布的均值和⽅差,进⽽得到统⼀的语义向量空间 [137] 

但⾼斯分布的假设在很多情况下与现实不符,于是 Ruder 等⼈ [138] 提出引⼊⽣成式对抗⽹络 [139] 的思想,使⽤对抗⾃编码器模型 [140] (Adversarial Autoencoders)通过⽣成器从源语⾔的词向量分布中⽣成⽬标语⾔词向量,并试图欺骗语⾔分类器,使之⽆法准确的进⾏分类,同时从⽣成的⽬标语⾔分布中解码回源语⾔以防⽌⽣成器退化到病态解:即收敛到若⼲个简单的⽬标语⾔情况实现完美的欺骗。

Zhang 等⼈ [141]进⼀步对⽣成器加以限制,令解码的过程使⽤⽣成器矩阵的转置完成,进⼀步缩⼩⽣成器的训练难度。

 

参考文献:

[137] Cao H, Zhao T, Zhang S, et al. A distribution-based model to learn bilingual word embeddings.ProceedingsofCOLING2016,the26thInternationalConferenceonComputationalLinguistics:Technical Papers, 2016. 1818–1827.

[138] Ruder S. A survey of cross-lingual embedding models. CoRR, 2017.

[139] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Advances inneural information processing systems, 2014. 2672–2680.

[140] Makhzani A, Shlens J, Jaitly N, et al. Adversarial autoencoders. CoRR, 2015.

[141] ZhangM,LiuY,LuanH,etal. Adversarial training for unsupervised bilingual lexicon induction.Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1: Long Papers), volume 1, 2017. 1959–1970.

 

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。