[paper阅读] 个性化信息推荐中的用户画像-2

如果还没有阅读第一部分的, 欢迎查阅第一部分 了解一下用户画像的一些背景知识/用户信息收集的方式/以及用户画像的表示等方面.

用户画像的构建

一般说来, 我们可以基于信息源使用许多基于机器学习或者信息检索的方法来构建用户画像. 根据希望的用户画像表示的不一样, 可能会使用到不同的技术. (画像也有可能通过用户或者专家进行手动构建, 但是, 对于大部分用户而言, 这是非常困难并且消耗时间的, 而这也将称为一个个性化服务难以推广的一个障碍.

基于用户反馈自动构建画像的技术更受欢迎. 尽管一些方法使用原生算法或者神经网络来学习画像, 更简单/更高效的基于概率或者向量空间的模型也被广泛使用, 并且在许多应用中也表现出非常高效的性能.

构建关键词画像

基于关键词的用户画像一般从信息源(用户的浏览历史或者书签)的网页中提取出关键词进行创建. 为了识别出给定网页中最重要的关键词, 一般会使用一些关键词打分技术, 并且一般会限制从单个页面中提取出来的关键词数目, 以保证 任何页面都只会有 最重要的N 个词语对用户的画像造成影响.

1 关键词画像构建技术

画像表示 信息源 构建技术
单个关键词向量 网页中隐式的正反馈 提取前面权重较高的关键词
每种兴趣一个关键词向量 网页中显式的正反馈 创建文档向量, 比较兴趣向量, 合并最近的兴趣向量
每种兴趣多个关键词向量 网页中显式的正/负反馈 创建文档向量, 与兴趣向量进行比较, 添加到最近的向量中

最简单的画像构建技术针对每个用户生成一个单一的关键词画像. 举个例子, 一些系统会使用信息检索领域广泛采用的 tf-idf 打分模式来对计算关键词的权重. 而 Amalthaea有点特殊在于: 它使用了一个基于遗传算法的学习算法调整和扩展用户画像. 除了使用 tf-idf 评分模式, 其它一些项目也探究过使用 LSI (Latent Semantic Indexing, 潜在语义索引) 和 LLSF (Linear Least Square Fit, 线性最小方差) 用于创建基于关键词的特征向量.

针对每个用户的每个兴趣领域构建多个关键词画像, 会生成一个关于用户更加精确的画面. 考虑一个用户对体育和厨艺感兴趣, 一个单一的关键词向量将会指向这两个主题的中间, 生成这样一个用户的画像: 关注擅长烹饪的运动员, 或者为超级碗聚会烹饪的厨师. 相反, 通过使用一系列向量, 用户画像能够更加精确地表示出用户两个独立的兴趣,

WebMate 是构建每种兴趣包含多个关键词向量用户画像的系统案例. 通过用户浏览过程中查看的网页来提供显式反馈. 通过从接收到正反馈的网页中提取出来的关键词来创建文档向量. 删除了停用词以及一些非常常用的词(例如andor等) 一些轻微的词干, 常用词前缀的删除来降低词典的大小.

在向量空间方法中, 一般使用 tf-idf 方法计算词语的权重. 标题和首段的词语会被特别地标识出来并且会被加上更高的权重.

不像其它要求用户显式在用户兴趣领域标识兴趣文档的系统一样, WebMate 自动学习兴趣领域. 学习算法需要设置一个固定的兴趣领域数目: N, 前N个正示例都将会被分配到一个单一的兴趣, 每个文档的向量将会被作为一个兴趣向量. 一旦有超过N个正示例, 由余弦相似度确定的最相近的两个兴趣向量将会被组合到同一个向量中.


1 WebMate中 基于关键词的用户画像的构建

Alipes也会基于兴趣向量创建用户画像, 但是它针对每个兴趣会使用多个向量. 在这种情况下, 每个兴趣会基于三个关键词向量进行建模: 长期/短期(正向)/短期(负向), 除了正面反馈之外, 它们还会考虑负面反馈, 而学习率则由用户的兴趣强度确定. 与WebMate类似, 它也会自动学习用户的兴趣, 然而, 它们是基于新兴趣与旧兴趣的相似度是否高于某个阈值来决定是否新建一个兴趣领域, 而不是基于固定的兴趣数. 当一个文档向量加入到用户画像时, 将会与每个兴趣的三个向量一一比较它们之间的余弦相似度. 如果相似度超过一个阈值, 文档向量将会加入到最匹配的兴趣中, 而用户反馈的响度将会影响到新闻的对短期向量的贡献量, 但是对长期向量的贡献则取决于到目前为止已经学习到的示例文档的数目, 贡献因子会随着时间进行衰减. 但是, 如果在文档向量没有和现有向量足够相似的匹配, 那么就会创建新的兴趣, 然后以该文档向量作为种子向量.

构建语义网络画像

基于语义网络的画像一般通过收集用户的显式正/负反馈来进行构建. 与基于关键词向量画像构建技术相似, 会从用户有过交互的网页中提取关键词. 与前面提到方法的不同之处在于: 不是将提取出来的关键词加到向量中, 而是将关键词加入到网络的节点中. 节点可能会表示单个单词或者一个特定的概念以及与其相关的词(在更复杂的方法中). 在这个部分, 概念指的是一个特定的/预先定义好的想法以及一系列相关词的集合, 例如, 狗狗和它的同义词, 但是兴趣指的是用户更高级别的兴趣主题, 例如: 动物权利, 在这里表示为一系列相关的概念.

与基于关键词的画像相比, 语义用户画像有一个优势在于: 它们可以显式地对特定词语和更高级别概念之间的关系进行建模. 因此, 它们可以更高效地解决自然语言本质的模糊性和同义词. 然而, 这也为构建这些系统带来了一些障碍. 它们要么探究词语和概念之间现有的映射, 例如 SiteIF使用的 WordNet, 要么必须和ifWeb/PIN/InfoWeb一样构建一个学习机制, 要么和WIFS一样必须手动构建.

2 语义网络画像构建技术

画像表示 信息源 构建技术
单个语义网络:每个词语一个节点 文档示例, 网页中的显式正负反馈 提取最重要的词语, 在语义网络中针对每个词语创建一个节点, 在文档中包含共现的词时链接节点
单个语义网络:每个概念一个节点 网页中的显式正负反馈 提取最重要的词语, 使用 WordNet 将词语映射到概念
单个语义网络:每个概念一个节点 网页中的显式正负反馈 提取名词, 使用神经网络学习概念
单个语义网络: 每个概念一个行星, 每个词语一个卫星 原型文档集合, 显式正负反馈. 直接的用户重定义 基于显式反馈创建概念节点, 通过修改增加关键词节点和弧
单个语义网络: 每个概念一个行星, 每个词语一个卫星 原型文档集合, 用户访问, 显式用户反馈, 直接操作 基于人工专家创建概念节点和关键词节点, 通过修改增加关键词节点和弧

构建概念画像

这个部分将会简单介绍三个代表性的系统: 将用户画像表示为加权的概念层次. 尽管每个系统都使用不同的构建方法, 它们使用一个参照分类作为画像的基础. 这些画像与语义网络画像的不同之处在于: 它们使用之前存在的概念来标识用户的画像, 而不是对概念进行建模作为用户画像的一部分. 因此, 它们都需要一些方法来基于用户的反馈来判断用户是否对概念感兴趣. 尽管一些系统在预先分类的文档中收集反馈, 但是很多系统还是先收集许多文档, 然后对文档进行文本分类来识别每个文档的概念. 许多研究中, 一般将概念层次称为 本体. 但是, 在本文中, 还是使用术语: 概念层次来标识本体中只包含 is-a 链接, 然后限制词语本体到支持一系列概念之间丰富的关系, 包含逻辑组成能够形式化地表示关系.

3 概念画像构建技术

参考分类 信息源 构建技术
开源目录项目 所有概念 在预先分类的网页中的显式正反馈 tree coloring
Yahoo! 网页上和搜索结果中的隐式正反馈 聚类
CORA 97概念 在预先分类的研究论文的显式和隐式正反馈 tree coloring, 到父概念中的传播
开源目录项目 2000概念 在任何网页或者查询以及搜索结果上的隐式正反馈 文本分类以识别概念
开源目录项目 619概念 在任何网页或者查询以及搜索结果上的隐式正反馈; 分类中的显式正反馈 文本分类以识别概念, 基于反馈拓展分类训练
开源目录项目 55概念 在任何网页中的隐式正反馈 文本分类以识别概念, 调整分类以增加/删除概念
ACM 主题层次 1287概念 通过文献目录/查询的隐式反馈, 画像操作中的显式反馈 tree coloring, 直接操作, 推荐

结论

总的说来, 表示/构建/使用用户画像的方法方面已经有了很多的方法. 这些技术的方法对于为用户提供精确的/个性化的信息服务来说是至关重要的. 作者们还调研了许多方法, 但是隐式创建的画像会给用户带来更少的负担, 而且也能够及时获取到用户的兴趣. 随着这些技术的成熟, 可以看到: 画像技术从简单的关键词向量发展到了更加丰富/概念性的表示. 未来, 画像将会需要融合一些时间和上下文的信息, 例如:

  • 用户正在干什么?
  • 用户已经看过什么信息?
  • 用户当前的地理位置?

可以进一步考虑将这些信息与画像进行融合, 从而获得用户更加精确的兴趣.

打赏

mickey

记录生活,写给几十年后的自己。

发表评论

电子邮件地址不会被公开。 必填项已用*标注