Skip to main content

[paper阅读] 通过基于doc2vec的混合协同学习连续的用户表示算法(一)

本文主要翻译自《Learning Continuous User Representations through Hybrid Filtering with doc2vec》,于2017年12月31日发表在arXiv上。原文链接:https://arxiv.org/pdf/1801.00215.pdf。

一些定义

  • look alike modeling: 以人找人,相似人群扩散的建模

简要介绍

  • 首先,通过应用的使用历史和应用描述对移动应用用户进行建模(user2vec
  • 其次,通过在模型训练中融入额外的用户和应用相关的元数据来引入上下文信息(context2vec

主要成果

  • user2vec提供的推荐质量显著高于现有技术
  • 通过使用doc2vec混合过滤生成的 用户表示相似人群扩散建模的监督式机器学习模型中是非常有效的特征
  • 将上下文元数据融合到doc2vec的模型训练中引入上下文信息对性能有积极的作用,优于直接将数据在向下的监督模型中作为特征

预备知识

神经概率语言模型

神经概率语言模型(NPLM)是一种基于神经网络的语言模型,利用其能力来对高维离散的分布进行建模。NPLM的思想基于分布的假设:在相似的上下文中出现的单词有相似的 [含义][1]。在实践中,一般通过使用一个神经网络来从单词的共现中提取语言的相似性和语义信息,生成低纬的、固定长度的数值数组(神经文本嵌入)。现在已经有许多NPLM算法,例如[word2vec] [2],以及它的拓展doc2vecparagragh2vecsentence2vec是比较杰出的[代表][3]。两种算法在多个领域都有着非常大的价值,包括机器翻译和情感分析。

参考文献

[1] : Bengio, Y & Ducharme, Réjean & Vincent, Pascal. (2000). A Neural Probabilistic Language Model. Journal of Machine Learning Research. 3. 932-938. 10.1162/153244303322533223.
[2]: Mikolov, T & Sutskever, I & Chen, K & Corrado, G.s & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In: Conference on Advances in Neural Information Processing Systems. Distributed Representations of Words and Phrases and Their Compositionality. 3111-3119.
[3]: Le Q V, Mikolov T. Distributed Representations of Sentences and Documents[J]. 2014, 4:II-1188.

打赏
微信扫一扫支付
微信logo微信扫一扫, 打赏作者吧~

mickey

记录生活,写给几十年后的自己。