[paper阅读] 使用复合构成及n-gram特征的句子嵌入非监督式学习-3

相关工作

本节将会介绍现有用于构造句子嵌入的模型. 尽管在这个领域也有许多监督式学习中 使用标注好的释义对数据集 来获得句子嵌入的相关工作[12,13,14], 但是在这里, 主要介绍非监督式/独立于任务的模型. 尽管一些方法要求有序的原始文本, 例如连贯的语料: 下一个句子是前一个句子的逻辑延续; 而其它方法则只依赖于原始的文本, 例如: 无序的句子集合. 最后, 这个部分还会介绍从结构化的数据源中构建的模型.

独立于句子顺序的非监督式模型

段向量DBOW 模型[15] 是一个对数线性模型, 可以用来训练徐子和单词的嵌入, 然后给定一个句子的向量, 使用一个softmax分布来预测句子中包含的单词. Le等人也提出了一个不同的模型 — 段向量DM, 使用连续词语的n-gram以及句子向量表示来预测下一个单词.

Lev等人[16]也提出了一个方法来从单词向量中获得组合的嵌入. 他们使用不同的组合方法包括: 静态的均值或者多元高斯的Fisher向量来从word2vec模型中获得句子嵌入.

Hill等人[17]提出了一个S(D)AE, 序列的(去躁)自动编码. 该模型首先引入了输入数据中的噪音: 首先, 每个单词都有 p_0 的概率被删除, 然后针对每个未交叉的二元组, 所有单词都有 p_x 的概率会被交换. 然后模型可以被用于将新的句子编码到向量表示中. 在 p_0 = p_x = 0 的情况下, 模型只是变成了一个序列的自动编码器. Hill等人也提出了一个变种: `S(D)AE + embs, 使用定长的预训练好的单词向量嵌入来表示单词.

Arora等人[18]提出了一个模型, 使用一个定长的/预先训练好的单词向量 的加权均值来表示句子, 后面再接一个减去主成分的后续处理步骤. 通过使用[19]论文中的生成模型, 基于一个句子的结构向量 c_s 的条件生成句子:

Pr[w|c_s]=\alpha f_w + (1-\alpha)\frac{\exp{(\tilde{c}_s^Tv_w)}}{Z_{\tilde{c}_s}}

其中, Z_{\tilde{c}_s} := \sum_{w\in \mathcal{V}} \exp{(\tilde{c}_s^Tv_w)} , \tilde{c}_s := \beta c_0 + (1-\beta) c_s , 并且 \alpha\beta 为标量. c_0 是一个公用的结构向量, 表示所有结构中共享的组成, 主要与句法相关. 这就允许模型更好地生成句法特征. 而在这里 \alpha f_w 部分使得模型即使在一些频繁词与结构向量\tilde{c}_s匹配度不高的情况, 也能够生成一些频繁的词语.

因此, 该模型试图将句子生成为三种类型单词的构成: 匹配句子结构向量 c_s 的词语, 匹配 c_0 的句法词语, 模型中高 f_w 的单词. 论文[18]表明: \tilde{c}_sMLE 可以使用 \sum_{w\in S}\frac{\alpha}{f_w + \alpha}v_w 进行估计, 其中 \alpha 为标量. 句子的结构向量可以通过在句子集合之上减去 c_0 ( 通过 \tilde{c}_s 的第一个主要成分进行估计). 换句话说, 句子嵌入通过 减掉通用结构向量和对频繁项降权 之后的词向量的加权均值来获得. 它们从大量预先训练好的词语嵌入中生成句子嵌入, 其中, 词语嵌入为非监督式学习得到的词语嵌入(例如, GloVe[2])和监督是学习得到的词语向量(例如, 在Paraphrase数据集[21]上训练的paragram-SL999(PSL)[20]).

在一些非常不同的工作线中, C-PHRASE[22]依赖于每个句子的句法分析树中得到的额外信息, 能够将其嵌入到C-BOW训练目标.

Huang等人[23]证明了: 可以使用一个张量分解方法对单层CNNs进行建模. 而在一个非监督的目标上搭建时, 使用的词典学习步骤用于获取短语模板是面向任务的(针对每个用力案例), 而不是带来通用目的的嵌入.

依赖于句子顺序的非监督式模型

SkipThought模型[24]将句子级别的模型与RNN结合在一起. 给定一个有序语料集中的句子 S_i , 训练模型以预测 S_{i-1}S_{i+1}.

FastSent [17]是一个句子级别的对数线性词袋模型. 与 SkipThought类似, 它使用临近的句子作为预测目标, 然后使用非监督式学习的方式进行训练. 使用句子序列使得模型可以改进之前paragraph2vec的工作[15]. Hill等人通过将FastSent训练为也能够预测句子中连续的单词来进行进一步改进.

与本文中提到的方法相比, Siamese C-BOW[15]也使用了将句子中的词语嵌入取均值的思想. 但是, 它依赖于一个Siamese神经网络结构来预测周边的句子, 与本文中提到的更简单的非监督式目标相违背.

值得注意的是: 在字符序列级别而不是词语序列级别, FastText[3]使用相同的概念模型来获得更好的词语嵌入. 这是与本文提出的模型最相似的地方, 但是有两个关键的不同之处: 首先, 本文提出的方法从源词语序列到目标词语的预测, 而不是字符序列到目标词语的序列; 第二, 模型时对源嵌入进行求平均而不是对它们进行求和.

要求结构化数据的模型

DictRep方法[26]训练模型将词语的字典定义映射到这些词语预先训练好的词语嵌入中. 它们使用两种不同的架构, 也就是BOWRNN(LSTM)可以选择学习输入单词嵌入或者使用预先训练的数据. CaptionRep的变式也使用了相似的架构, 但是这里, 任务是给定图片的描述来映射到一个这些图片预先训练好的向量表示.

结论

在本文中, 作者们引入了一个新颖的/计算高效的/非监督的/C-BOW驱动的方法来训练和推导句子嵌入. 在监督式的评估中, Sent2Vec平均优于其它所有除了SkipThought之外的非监督式学习方法. 但是, SkipThought向量在句子相似度任务中的性能比较差, 但是Sent2Vec模型实现的效果比较优越. 此外, 模型是可泛化的, 能够快速训练, 易于理解并且容易解释, 与使用深度结构的其它模型相比, 展示了简单和优越表示的相关性. 接下来的工作可以通过改进模型来探究有序句子的数据. 此外, 也可以考虑探究模型使用预先训练好的嵌入用于迁移学习任务的能力.

参考文献

[2] Jeffrey Pennington, Richard Socher, and Christopher D Manning. 2014. Glove: Global vectors for word representation. In EMNLP. volume 14, pages 1532– 1543.
[3] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. 2017. Enriching Word Vectors with Subword Information. Transactions of the Associa- tion for Computational Linguistics 5:135–146.
[12] John Wieting, Mohit Bansal, Kevin Gimpel, and Karen Livescu. 2016a. Charagram: Embedding Words and Sentences via Character n-grams. In EMNLP-Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Stroudsburg, PA, USA, pages 1504–1515.
[13] John Wieting, Mohit Bansal, Kevin Gimpel, and Karen Livescu. 2016b. Towards universal paraphrastic sentence embeddings. In International Conference on Learning Representations (ICLR).
[14] Alexis Conneau, Douwe Kiela, Holger Schwenk, Loic Barrault, and Antoine Bordes. 2017. Supervised learning of universal sentence representations from natural language inference data. arXiv preprint arXiv:1705.02364 .
[15] Quoc V Le and Tomas Mikolov. 2014. Distributed Representations of Sentences and Documents. In ICML 2014 – Proceedings of the 31st International Conference on Machine Learning. volume 14, pages 1188–1196.
[16] Guy Lev, Benjamin Klein, and Lior Wolf. 2015. In de- fense of word embedding for generic text representa- tion. In International Conference on Applications of Natural Language to Information Systems. Springer, pages 35–50.
[17] Felix Hill, Kyunghyun Cho, and Anna Korhonen. 2016a. Learning Distributed Representations of Sentences from Unlabelled Data. In Proceedings of NAACL-HLT .
[18] Sanjeev Arora, Yingyu Liang, and Tengyu Ma. 2017. A simple but tough-to-beat baseline for sentence embeddings. In International Conference on Learning Representations (ICLR).
[19] Sanjeev Arora, Yuanzhi Li, Yingyu Liang, Tengyu Ma, and Andrej Risteski. 2016. A Latent Variable Model Approach to PMI-based Word Embeddings. In Transactions of the Association for Com- putational Linguistics. pages 385–399.
[20] John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu, and Dan Roth. 2015. From paraphrase database to compositional paraphrase model and back. In TACL -Transactions of the Association for Computational Linguistics.
[21] Juri Ganitkevitch, Benjamin Van Durme, and Chris Callison-Burch. 2013. Ppdb: The paraphrase database. In HLT-NAACL. pages 758–764.
[22] NT Pham, G Kruszewski, A Lazaridou, and M Baroni. 2015. Jointly optimizing word representations for lexical and sentential tasks with the c-phrase model. ACL/IJCNLP
[23] Furong Huang and Animashree Anandkumar. 2016. Unsupervised Learning of Word-Sequence Representations from Scratch via Convolutional Tensor Decomposition. arXiv .
[24] Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, Richard Zemel, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 2015. Skip-Thought Vectors. In NIPS 2015 – Advances in Neural Information Pro- cessing Systems 28. pages 3294–3302.
[25] Tom Kenter, Alexey Borisov, and Maarten de Rijke. 2016. Siamese CBOW: Optimizing Word Embed- dings for Sentence Representations. In ACL – Proceedings of the 54th Annual Meeting of the Asso- ciation for Computational Linguistics. Berlin, Ger- many, pages 941–951.
[26] Felix Hill, KyungHyun Cho, Anna Korhonen, and Yoshua Bengio. 2016b. Learning to understand phrases by embedding the dictionary. TACL 4:17– 30.

打赏

mickey

记录生活,写给几十年后的自己。

发表评论

电子邮件地址不会被公开。 必填项已用*标注