[paper阅读] 度量分解: 矩阵分解之下的推荐(一)

摘要

过去的十几年时间里, 有许多研究都调研过矩阵分解技术, 它已经成为个性化推荐中最受欢迎的技术之一. 但是, 基于矩阵分解的推荐模型中采用的点积无法满足不等式性质, 可能会限制它们的可表达性, 得到次佳的方案. 为了解决这个问题, 作者们提出了一个新颖的推荐技术. 假设用户和物品可以放到低维空间, 并且可以使用满足不等式性质的欧氏距离来度量它们之间的距离. 为了验证其效果, 作者们进一步设计了两种模型的变式: 一个用于预测评分, 另一个用于个性化物品排序. 在大量真实数据集上的拓展性实验结果表明: 该方法在评分预测和物品排序任务中均极大地优于已有的先进方法.

简介

从偏好矩阵中学习低秩的潜在特征 是许多推荐系统研究的基础. 矩阵分解 已经成为了推荐中最受欢迎的技术之一. 由于内积的的简易性和高效性, 这一类技术实现了合理的成功, 而随着在一系列著名比赛(例如, Netflix Prize)中取得不错的效果, 该技术得到了越来越广泛的应用.

另一方面, 一个有竞争力的分支 — 依赖于度量向量空间的计算和学习 同时展现了简洁性和高效性. 分解模型的一个关键争议点在于 内积违背了三角不等式, 而内积又是获取用户和物品之间细粒度相似性的核心所在. 最后, 度量学习方法, 大部分基于欧氏距离作为相似度度量, 一直被认为更适用并且更具有表达性.

本篇文章主要关注将两种范例连接起来.首先, 作者们探究了 拆开度量向量空间 的概念, 例如: 通过分解学习度量空间中的低秩结构. 最后, 作者们提出的方法– FML(Factorized Metric Learning, 分解度量学习) 可以被看做是分解由距离而不是评分组成的矩阵. 这就是与传统矩阵分解方法不同的地方, 传统的矩阵分解通常使用评分对用户物品之间的相似性进行编码.

方法最原始的动机在于: 将两种方法的优势结合起来, 从而缓解各自方法的本质缺点. 更具体地, 关于矩阵分解: 它的性能可能会因为交互方法–内积的简单选择而有所降低(原因见延伸探究12). 众所周知, 点积无法满足三角不等式, 限制了矩阵分解的可表达性, 从而带来次佳的结果. 此外, 学术研究也已经表明: 当潜在因子数目过大的情况下, 矩阵分解方法很有可能会造成过拟合的后果, 极大地限制了模型的灵活性和性能.

三角不等式的性质: 两点之间的距离不能大于它们两点分别到第三点的距离之和.

度量学习(从近期的工作Collaborative Metric Learning推广开来)已经展现了解决这个问题的能力. 然而, 也存在一些问题: 向量空间的过度拥塞. 尽管该算法会学习相似的集群, 我们假设学到的集群也可能会遇到过度拥塞的问题, 从而导致次佳的结果.

为了缓解上面提到的各种问题, 作者提出了一种新颖的技术: FML(Factorized Metric Learning, 分解度量学习). 主要动机是: 将偏好转化为距离; 将点乘替换为欧氏距离. FML从位置和距离的角度考虑推荐问题, 然后直接将距离矩阵分解为用户和物品的紧密表示. 这样不仅仅可以避免上面提到的问题, 还可以同时适用于点击预测和物品排序任务. 基于估计的距离生成推荐. 因此, 推荐可以看做是使用分解来拆开距离. 总的说来, 论文的主要贡献总结如下:
– 提出了一个新颖的技术: FML, 可以在度量向量空间探究寻找低秩结构的概念. 在FML中, 用户和物品都表示为多维坐标系统(例如: 度量向量空间)中的点. 基于度量空间中用户和物品之间的距离进行推荐. 但是, 与其它度量学习方法不同, 该模型的关键创新之处在于: 它分解了距离空间
– 实例化了两种FML的变种模型来解决两个经典/有地位的推荐任务: 评分估计和物品排序, 模型可以在两种问题背景下高效地学习用户和物品的位置
– 在大型数据集上的拓展性试验表明: FML在评分预测和物品排序任务中均极大地优于已有的先进方法. 这就意味着这个概念上非常简单的模型非常有效.

延伸探究

1. 为什么点积不满足三角不等式?

根据资料2, 举出反例: A=(1,0), B=(0,1), C=(1,1):
– $dist(A,B) = 1$
– $dist(A,C) = 1- \sqrt2 /2$
– $dist(B,C) = 1-\sqrt2 /2$
显然: $dist(A,C) + dist(B,C) = 2 – \sqrt 2 < 1 = dist(A,B)$, 不满足三角不等式

2. 为什么点积可能会限制矩阵分解的可表达性?

参考论文3中的示例, 需要先了解两个背景知识:
– 由于矩阵分解将用户和物品映射到相同的潜在空间, 两个用户之间的相似性也应该可以通过内积(或者等价地, 余弦相似度) 进行度量
– 常理说来, 也可以使用Jaccard相关系数作为矩阵分解需要满足的用户相似性的度量标准

以下图为例进行解释:

图 矩阵分解限制的示例

让我们一起来看图(a), 不难发现: $s_{23}(0.66) > s_{12}(0.5) > s_{13}(0.4)$. 因此, 可以得到p1, p2, p3在几何上的位置关系如图(b)所示. 考虑新用户u4, 评分如图(a)中虚线框内的数据所示. 可以得到: $s_{41}(0.6) > s_{43}(0.4) > s_{42}(0.2)$, 这意味着用户u4 与 用户u1 最相似, 其次是 u3和u2. 但是, 在(b)中的潜在空间中, 如果将p4靠近p1,会使得p4 更靠近p2 而不是p3, 带来排序的损失.
上面的示例体现了: 在低维潜在空间中使用简单/固定的内积估计复杂的用户-物品交互而带来的限制. 解决该问题的一个方案之一是: 增大潜在因子数目K的值. 但是, 可能会损害模型的泛化能力(造成过拟合), 特别是在数据稀疏的背景下.

参考资料

打赏

mickey

记录生活,写给几十年后的自己。

2 thoughts to “[paper阅读] 度量分解: 矩阵分解之下的推荐(一)”

发表评论

电子邮件地址不会被公开。 必填项已用*标注