[paper阅读] 点击率预测中的深度兴趣网络-1

本文翻译自阿里巴巴发表在KDD 2018的论文:Deep Interest Network for Click-Through Rate Prediction.

简介

在产业应用中, 例如在线广告中, 点击率预测是一个基本的任务. 最近, 研究人员们提出了基于深度学习的模型, 遵循着相似的嵌入/多层感知机范式. 在这些方法中, 首先, 大型稀疏的输入特征都会被映射到低维的嵌入向量中, 然后, 以成组的方式转换到定长的向量中, 最后将它们组合到一起输入到一个多层感知机中来学习非线性的关系. 在这种方法中, 用户特征被压缩到一个定长的表示向量中, 而不会考虑候选的广告. 定长向量的使用是这类方法中的一个瓶颈, 因为它可能会使得嵌入/多层感知机方法无法从丰富的历史行为中获取用户多样的兴趣. 为了解决这个问题, 在这篇文章中, Zhou等人提出了一个新颖的模型: DIN(Deep Interest Network, 深度兴趣网络), 通过设计一个局部的激活单元 自适应地 从历史行为中 学习到 针对特定广告的用户兴趣表示. 表示向量会随着广告的变化而变化, 极大地提高了模型的表示能力. 此外, 他们还提出了两种方法: mini-batch 相关的正则化方法 以及 可以帮助训练 有数以亿计参数的 产业深度网络 的数据自适应 激活函数. 两个公开数据集以及从阿里巴巴真实生产数据集中采样的超过20亿数据 上的实验表明了 DIN的高效性, 与现有流行的方法相比, 模型实现了高效的性能. 目前, DIN已经被成功地运用到了阿里巴巴的在线广告展示系统中, 承担着大部分流量.

背景介绍

CPC(cost-per-click, 点击计费)的广告系统中, 一般是使用eCPM(effective cost per mille, 千次网页展示收入)来进行排序的, 而这个值一般是点击率和竞价的乘积, 其中点击率是需要系统进行预估的. 因此, 点击率预测模型的性能会直接影响最终的收入, 在广告系统中发挥关键的作用. 对点击率预测进行建模已经受到了学术和产业社区的极大关注.

最近, 受到深度学习成功应用于计算机视觉和自然语言处理领域的影响, 基于深度学习的方法也已经开始应用于点击率预估任务. 这些方法都遵循着一个相似的嵌入/多层感知机范式: 先将大型稀疏的输入特征映射到低维的嵌入向量中, 然后以成组的方式将其转化为定长的向量, 最后将这些向量联结到一起输入到全连接层中(也被成为MLP, Multilayer Perceptron, 多层感知机) 以学习到特征之间的非线性关系. 与现在通用的逻辑斯蒂回归模型相比, 这些深度学习方法可以减少大量特征工程的工作, 并且极大地提高模型的能力. 为了简单表示, 本文将这些方法称为 嵌入&多层感知机, 这些方法在点击率预测任务中非常流行.

然而, 在 嵌入&多层感知机 方法中 用户表示向量 的维度限制 将会成为 表示用于广泛兴趣的瓶颈. 举个电商网站中展示广告的例子: 在访问电商网站时, 用户可能会同时对不同种类的商品感兴趣. 也就是说: 用户的兴趣是 多样的. 而在点击率预测任务中, 一般是通过用户行为数据获取用户兴趣的, 嵌入&多层感知机 方法通过将用户行为的嵌入向量转化到一个定长的向量 来学习到一个特定用户的所有兴趣表示, 其中, 定长向量是所有用户表示向量的欧式空间. 换句话说, 用户多样的兴趣被压缩到一个定长的向量中, 限制了 嵌入&多层感知机 方法的表现能力. 为了使得表示(向量)能够足够表示出用户多样的兴趣, 定长向量的维度需要被扩展. 不幸的是, 这会极大地增大学习参数的大小并且加大在有限数据下出现过拟合问题的风险. 除此之外, 这样会增加计算和存储的负担, 而这些在一个产业的在线系统中可能是无法容忍的.

另一方面, 在预测用户对一个候选广告的兴趣时, 是没有必要将用户所有的多样兴趣压缩到相同的向量中的, 因为只有部分用户兴趣会影响用户的行为(点击或者不点击). 例如, 一个女性游泳运动员可能会基于她购买的泳装而点击一个推荐的护目镜, 而不是基于她上周购物清单上的鞋子进行购买. 基于这个动机, Zhou等人提出了一个新颖的模型: DIN(Deep Interest Network, 深度兴趣网络), 模型可以通过考虑历史行为与给定候选广告的相关性来自适应地计算用户兴趣的表示向量. 通过引入一个局部的激活单元, DIN关注于 通过soft检索 与给定候选广告相关的部分历史行为 而得到的相关用户兴趣, 然后使用一个加权的求和池化策略来获得用户对给定候选广告的用户兴趣表示. 与候选广告相关性越高的行为会获得越大的激活权重, 然后决定用户兴趣的表示. 在实验部分, Zhou等人可视化了这个现象. 通过这种方法, 用户兴趣的表示向量会随着不同的广告而改变, 这样提高了在有限维度下模型的表达能力, 使得DIN能够更好地获取用户多样的兴趣.

使用大型稀疏的特征训练产业的深度网络具有非常大的挑战. 例如, 基于SGD的优化方法只会更新出现在每个mini-batch中出现的稀疏特征的参数. 然而, 如果增加传统的 $l_2$ 正则, 将会无法接受这样的计算, 因为它需要在每个mini-batch中, 在整个参数的基础上计算 $L_2$ 范数. 在这篇文章中, Zhou等人提出了一个新颖的 基于 mini-batch 的正则化方法, 只有在每个mini-batch中出现的非零特征 的参数才会参与到 $L_2$ 范数的计算中, 使得计算复杂性可接受. 此外, Zhou等人还设计了一个数据自适应的激活函数, 通过自适应地调整 与输入分布相关 修正点 来泛化通用的 PReLU, 对训练稀疏特征的产业网络非常有效.

论文的贡献总结如下:

  • 指出了使用定长向量表示用户多样兴趣的限制, 并且设计了一个新颖的DIN(Deep Interest Network, 深度兴趣网络), 引入一个局部的激活单元, 基于与给定广告相关的历史行为来自适应地学习用户兴趣的表示. DIN可以极大地提高模型的表达能力, 并且更好地获取用户兴趣多样化的特征.
  • 提出了两个新颖的技术来帮助训练产业深度网络:
    • 一个mini-batch相关的正则化方法, 减少了 有大量参数的深度网络 中正则化 所需要的大量计算力, 有助于避免过拟合
    • 一个数据自适应的激活函数, 通过考虑输入的分布来泛化PReLU, 并且展示了不错的性能
  • 在公开数据集和阿里的数据集上组织了扩展性实验. 结果验证了DIN和训练方法的高效性. 目前代码已经开源. 提出的方法也已经用于阿里巴巴的商业展示广告系统中, 对业务产生了极大的提升

本文主要关注于电商产业中广告展示场景的点击率建模. 但是, 讨论的方法也可以被应用有着丰富用户行为的相似场景, 例如: 电商网站中的个性化推荐, 以及社交网络中的信息流排序等.

这一周主要介绍了DIN的简介以及背景部分, 之后我们还会继续介绍相关工作/ 电商网站的广告展示系统中 用户行为数据特征的背景/DIN模型的设计细节以及提出的两种训练方法/实验/总结等部分.

打赏

mickey

记录生活,写给几十年后的自己。

发表评论

电子邮件地址不会被公开。 必填项已用*标注