[paper阅读] 个性化信息推荐中的用户画像-1

本文译自Susan等人2007年发表的 User Profiles for Personalized Information Access.

摘要

网上信息的数量经历了指数式的增长. 尽管信息是非常有价值的资源, 但是其巨大的数量限制了其价值. 许多研究项目和公司都在探索那些能够通过裁剪展示给单个用户的信息而控制信息泛滥的个性化应用的使用. 为了保证高效性, 所有这些应用都需要收集和研究关于单个用户的一些信息. 这一块工作一般被称为: 用户画像. 本文调研了一些当前最流行的技术, 包括: 收集用户信息, 表示和构建用户画像. 特别地, 显式的信息技术与使用浏览器缓存/代理服务器/浏览器代理/桌面代理以及搜索日志等用来隐式收集用户信息的技术相反. 本文将会详细讨论: 将用户画像表示为加权的关键词/语义网络以及加权的概念等.

背景知识

用户画像包括人口信息, 例如: 名字,年龄, 国籍, 教育程度等; 还有一些用户群组或者单个用户的兴趣偏好.

画像的分类:
1. 静态数据
2. 动态数据: 短期-用户当前的兴趣,长期-不会随着时间频繁变化的兴趣

一般说来, 用户画像的目标是: 收集 用户感兴趣的主题 以及 用户对该主题感兴趣的持续时间 相关的信息, 以便于提高信息推荐的质量和推测用户的意图.


1 基于用户画像的个性化推荐概述

如图1所示, 用户画像的构建过程主要分为三大步骤:
1. 使用信息收集流程来收集关于用户的原始信息, 根据不同信息收集流程的选择, 抽取不同类型的用户数据
2. 基于用户数据构建用户画像
3. 探究用户画像中的信息已提供个性化服务

本周主要介绍信息的收集方式以及不同类型画像的定义.

用户信息的收集

用户标识的方法

有五种基本的方法来标识用户:
1. 软件代理
2. 登录
3. 改进的代理服务器
4. cookie
5. sessionid

用户信息收集的方法

用户画像可以基于与当个用户相关的异构信息或者是一群表现出相似信息或者相似导航行为的用户.

显式用户信息收集: 显式的用户信息收集(显式用户反馈): 依赖于用户HTML表格形式的个人信息输入. 一般包括人口信息, 例如: 生日/婚姻状态/工作或者个人兴趣.

缺点: 需要花费用户的时间并且要求用户愿意参与. 如果用户不愿意提供个人的信息, 就无法为他们构建画像.

隐式用户信息收集: 隐式的用户信息收集(隐式用户反馈), 主要优势在于: 该技术在构建画像的过程中不需要用户额外的干预.

1 隐式用户信息收集方法

收集方式 收集的信息 信息广度 优缺点
浏览器缓存 浏览历史 任何网站 优点: 用户无需安装任何东西. 缺点: 用户必须定时上传缓存
代理服务器 浏览历史 任何网站 优点: 用户可以使用常规的浏览器. 缺点: 用户必须使用代理服务器
浏览器代理 浏览历史 任何个性化应用 优点: 代理可以收集所有网页行为. 缺点: 安装软件并且在浏览的时候需要使用新的应用
桌面代理 所有用户行为 任何个性化应用 优点: 可以得到所有用户文件及行为. 缺点: 需要用户安装软件
网页日志 浏览行为 登录之后的网站 优点: 可以收集到多个用户的信息. 缺点: 每个网站可能只有非常少的信息
搜索日志 搜索 搜索引擎日志 优点: 在相同网站中的所有信息的收集和使用. 缺点: 必须开启 Cookies并且/或者 登录到网站, 信息量可能会比较少

隐式和显示信息收集方式的比较: 关于隐式创建用户画像是否比显式建立用户画像更加精确这个问题, 目前并没有一个明确的答案. 但是, 趋势应该是这样的: 最初的研究发现显式反馈更好, 后面的研究表明两种反馈形式是可比的, 而最新的研究则表明隐式反馈更合适. 这可能意味着: 由于收集和使用隐式反馈技术的发展, 极大提高了隐式信息构建出来的画像质量. 由于隐式反馈需要用户进行的行为更少, 并且可以根据用户和系统的交互进行自动更新, 使用隐式的方式收集用户信息似乎是一种更受欢迎的方式.

用户画像的表示

用户画像一般可以表示为: 加权的关键词集合/语义网络/加权的概念或者相关规则.

关键词画像

用户画像的最常用表示形式是一系列关键词集合. 可以通过网页文档自动提取或者由用户直接提供. 一般还会将关键词与权重相结合来表示用户对关键词的感兴趣程度. 每个关键词可以表示兴趣主题(将关键词按照分类进行分组以用于表示用户兴趣的标准表示). 一个基于加权关键词的用户画像如图2所示.


2 一个基于关键词的用户画像

如果一个用户对两个主题感兴趣, 将关键词组合起来到一个单一的向量将会使得画像在里面取到中间值. 使用加权的单词序列表示用户画像, 用户画像由加权的n-gram组成 (长度为n的词语序列). 基于关键词画像的一个主要缺点是: 许多词语有多个含义. 由于一词多义的现象, 用户画像中的关键词是语义模糊的, 使得画像是不精确的.

语义网络画像

为了解决基于关键词画像中固有的一词多义问题, 用户画像可以使用一个加权的语义网络进行表示, 在语义网络中每个节点表示一个概念.

在一些系统中, 用户画像表示为一个概念的语义网络. 起初, 每个语义网络只包含一些没有连接的节点集合, 其中每个节点表示一个概念. 而每个节包含一个单一的/针对该概念具有代表性的术语. 随着收集的用户信息的增多, 包含与该概念相关的加权关键词也会越多, 通过这种方式来丰富画像. 关键词被存储在从属节点中, 与主概念节点相连. 概念之间也会添加链接表示相关关系. 图3中表示了一个基于该种表示的示例.


3 基于语义网络的用户画像摘要

在这个系统中, 用户画像由三个元素构成: 包括用户个人数据的标题, 模板集合和一系列兴趣. 每个槽包含三个方面: 领域/主题/权重. 其中, 领域标识了用户的兴趣领域, 主题是用户用来标识兴趣的特定条目, 群众表示用户对该主题的感兴趣程度. 用户模型表示为一个包含 语义链接修正链接 以及 领域 / 主题 / 和 权重 . 图4中展示了该标识的模型.


4 基于框架和语义网络的用户画像摘要

语义连接包含在时间段内相关文档中关键词列表的共现以及与该主题的相关性程度. 在这种情况下, 用户互相被看作是一系列语义网络的集合, 其中一个槽为一个行星, 而语义连接为卫星. 图5中呈现了这样一个语义网络的示例.


5 语义网络示例

概念画像

在某些程度上, 基于概念的画像与基于语义网络的画像是相似的, 因为它们都是通过概念的节点以及这些节点之间的关系来标识用户的. 但是, 在基于概念的画像中, 标识用户兴趣的节点为抽象的主题, 而不是特定的单词或者相关的单词. 概念画像与关键词画像相似, 因为它们也经常被表示为加权特征的向量.

在使用现有词典作为概念源时, 需要进行一些转换来将词典的内容转化到概念层次. 由于字典的设计初衷是允许终端用户的浏览, 因此并不是所有的父子连接都是概念上的.

为了对内容进行分割, 一些主题被按照字母分成子主题, 而一些则基于地理进行分割.

问题: 一些主题有非常多的子话题,但是其它主题只有非常少数的子话题, 此外, 一些主题可能有很多连接到该主题的网页, 或者没有相关的内容.

画像项目必须考虑上面的问题, 然后决定哪些目录的主题可以包括在概念的层级中. 使用越多级别, 用户的画像表示会变得越具体. 但是, 如果使用太多级别, 可能会丢失兴趣的通用领域.

此外, 非概念性的父子主题都被删除了, 而且这些主题只有非常少的相关网页. 图6中展示了基于用户点击历史中构建的用户概念级别的用户画像示例.


6 基于概念的用户画像示例

小结

本周主要介绍了一下用户画像的一些背景知识/用户信息收集的方式/以及用户画像的表示等方面, 更多的细节可以参考原论文~下周将会详细介绍下不同类型的用户画像的构建方法, 敬请期待.

打赏

mickey

记录生活,写给几十年后的自己。

发表评论

电子邮件地址不会被公开。 必填项已用*标注