[paper阅读] 使用复合构成及n-gram特征的句子嵌入非监督式学习-1

本文主要译自Matteo等人发表于NAACL 2018的论文–Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features.

摘要

近期, 大量应用中 非监督式词嵌入的巨大成功 带来了一个很好的联想: 相同的方法能否推广到提高单词序列的嵌入(例如, 语义表示)呢? 在这篇文章中, Matteo 等人介绍了一个简单但是高效的非监督式目标来训练句子的离散化表示. 在大多数任务中, 本文中的方法均优于当前大部分非监督模型, 表明了生成的通用目的的句子嵌入的鲁棒性.

简介

改进非监督式学习对于推动机器学习方法来说是非常重要的, 因为它可以帮助解锁几乎无限量的数据, 将其作为训练资源. 深度学习大部分成功的例子并没有使用到非监督式学习, 相反, 它们主要还是依赖于监督式学习 (特别是在视觉领域). 但是, 一个非常著名的反例来自于自然语言处理领域, Mikolov等人使用非监督式学习的方法对语义词嵌入进行训练. 在他们的创新成果出来短短几年内, 这种单词表示–基于一个简单的矩阵分解模型(之后将会进行形式化介绍), 老套地在非常大型的原始文本数据上进行训练, 已经变成了目前大部分主流NLP应用不可或缺的基石.

尽管单词已经有了一些非常有用的语义表示, 但是基于更长一些的文本片段(例如, 句子, 段落或者整个文档) 生成和学习语义嵌入还是非常有挑战的. 即使这样, 使用非监督的方式学习这些文本通用目的的表示还是一个非常关键的目标.

目前, 在文本表示学习中主要有两个相反的研究趋势:

  • 一方面, NLP领域中深度学习的一个很大趋势在于不断提升的强大并且复杂的模型, 例如RNNs(recurrent neural networks, 循环神经网络), LSTMs, 注意力模型甚至是神经图灵机架构. 尽管在表达能力方面很强, 但是不断增大的模型复杂度使得这些模型在更大的训练集上训练起来非常缓慢
  • 另一方面, 更简单的模型(例如, 矩阵分解或者双线性模型)可以从在更大型的数据中训练获益, 这是一个非常大的优势, 特别是在非监督学习的背景下

令人吃惊的是, 对于构建句子嵌入而言, 简单地使用词向量平均值(简单平均和加权平均)的效果尽然优于LSTMs. 这些例子表明了在研究模型复杂性和使用可扩展的算法, 从简单方向处理大数据量的文本之间进行的权衡. 在这个权衡的角度看来, 本文的工作进一步推动了非监督式学习的橘子嵌入. 作者们提出的模型可以看做是C-BOW的拓展, 将训练目标从训练单词嵌入换成了训练橘子嵌入. 论文的实验结果表明: 模型生成的通用目的的句子嵌入在保持模型简单的同时效果显著优于当前其它方法, 而它的训练和推断的复杂性与平均方法持平.

这篇论文的主要贡献总结如下:

  • 模型: 作者们提出了Sen2Vec, 一个简单的非监督式学习模型. 可以使用单词向量和n-gram嵌入组合得到句子嵌入, 同时能够训练复合词性以及嵌入向量
  • 高效性&可扩展性: 处理每个单词时, 嵌入的计算复杂性为O(1)向量操作, 在训练和句子嵌入的推导中都是. 这一点与所有基于神经网络的方法完全不同, 使得模型可以从极大的数据集是使用流的方式进行学习, 这在非监督式学习的背景下是一个极大的优势. 快速的推导在下游任务和产业应用中是一个非常大的优势
  • 效果: 与当前先进的非监督式甚至是半监督式模型相比, 模型实现了极大的性能提升. 生成的通用嵌入在迁移到大范围的预测基准测试中展示了极强的鲁棒性

本周主要介绍Sen2Vec的摘要和背景介绍. 下周将继续介绍模型及相关工作等部分.

打赏

mickey

记录生活,写给几十年后的自己。

发表评论

电子邮件地址不会被公开。 必填项已用*标注