前几周主要给大家介绍了论文的背景和具体方法两个部分,这一周终于到了实验和结论部分啦。接下来,马上进入使用层次解析结构来增强查询理解的终结篇。Ps:今天是
520
,对世界说声我爱你!
实验
为了评估提出的方法,作者将电影领域作为示例,并且在真实的电影查询上进行了实验。为了收集到真实用户的自然语言查询,作者们使用了之前在[1]中开发的标注工具包,将AMT
(Amazon Mechanical Turk
)作为众包平台。为了收集语义复杂的查询。作者们设计了查询生成HIT
(Human Intelligent Task
,人工智能任务)作为动词猜词任务:在每个HIT
中,实验者被要求生成一个查询来检索电影,并且不能提到电影的名称(如图1所示)。
图1: 在AMT
上的电影查询生成HIT
截图。对于每个问题,基于他们将会输入的搜索查询(不提到电影名称),用户可以从五个里面选择一个他们熟悉的电影标题
从这个猜词游戏HIT
中,作者们一共收集了9768
条电影查询。表1中展示了该查询集合中的一些示例。为了获得收集查询中的语义标签,作者们发布了另一个标注的HIT
,让用户们对每个查询进行分段,然后为每个语义分段分配语义分类。分类标签包括:Award
(奖项)/Title
(标题)/Opinion
(评论)/Year
(年份)/Origin
(来源)/Genre
(题材)/Director
(导演)/Plot
(情节)/Quote
(引用)/Actor
(演员)/Soundtrack
(电影配音)/Character
(角色名)/Other
(其它)。与之前研究[1]中发布的标注HIT
不一样(大多数分段是短短语),在本任务中,用户们倾向于选择长的成分作为分段,例如,一个电影的起源、评论者的意见以及情节描述。
表1 从AMT
中收集到的电影查询示例
电影 | 查询 |
---|---|
On the Waterfront |
In what film did Marlon Brando play a New York stevedore protesting that he could have been a contender? (在哪部电影中,昔日是拳击家的Marlon Brando 扮演一个纽约搬运工进行抗议?) |
Date Night |
This movie stars Steve Carell and Tina Fey and a case of mistaken identity turns a bored married couple's attempt at a romantic evening into something thrilling and dangerous. (这部电影由Steve Carell 和Tina Fey 主演。一次错误的识别使得一对日益生疏的夫妻尝试的浪漫之夜变得紧张和危险。) |
Get Him to the Greek |
What is the name of the 2010 movie in which a record company intern is hired to accompany out-of-control British rock star Aldous Snow to a concert at L.A.'s Greek Theater? (2010 年上映的电影中哪部讲述了唱片公司助理需要把一个完全失控的摇滚明星Aldous Snow 送到洛杉矶希腊剧院的音乐会现场?) |
North by Northwest |
In what Alfred Hitchcock film does Cary Grant flee from a bi-plane that swoops down on him in a field? (哪部Alfred Hitchcock 的电影中,Cary Grant 从一架复翼飞机中里落下到一个操场中?) |
作者随机将标注好的查询分割到训练集(80%
)和测试集(20%
)中。作者们使用了两个领域无关的解析器(Stanford Parser
[2]和Enju Parser
[3])进行语义特征提取。从这两个解析器生成的解析树中提取层次语法特征。作者使用Enju Parser
中的解析结果作为关系特征,因为其具有详细的语义依赖表示,例如编码子树(而不是一个单一的词)作为关系的参数、作者们还是用了半马尔科夫随机场[4]作为语义标注模型。使用n-grams
作为比较的基准方法。
如表2所示,层次的和依赖特征均对基线方法有一定的提高。从讲个解析器中提取出来的层次语法特征的F1
值分别为86.28%
和86.16%
。依赖特征的组合实验的F1
值为86.40%
,也高于基线的85.32%
。
表2 使用语义解析特征的标注结果。Hierarchical I
和II
分别表示从Stanford Parser
中提取出来的结构特征;All Dependency
表示Solo
(单向)/Dual
(双向)/Chain
(链式)依赖特征
方法 | 召回 | 准确度 | F1 值 |
---|---|---|---|
Baseline (基线) |
86.59 |
84.08 |
85.32 |
Hierarchical I |
87.53 |
85.06 |
86.28 |
Hierarchical II |
87.20 |
85.14 |
86.16 |
Solo Dependency (单向依赖) |
87.02 |
85.19 |
86.09 |
Dual Dependency (双向依赖) |
87.42 |
85.20 |
86.30 |
Chain Dependency (链式依赖) |
87.10 |
84.80 |
85.93 |
All Dependency (全依赖) |
87.43 |
85.39 |
86.40 |
为了评估该方法在另一个领域的效果,作者也在一个由9,991
条饭店查询组成的集合中进行了实验,该数据集是在之前的研究中[1]收集的,也包含复杂查询成分(例如,Amenity
(设施)以及Opinion
(评价))。该查询也被随机划分为训练集(80%
)和测试集(20%
)。如表3所示,在测试机中,两个解析器中的层次特征实现的F1
值为84.58%
和84.50%
,而依赖特征实现的F1
值为84.60%
,均高于基线的方法(82.87%
)。
表3 在饭店查询中的语义标注结果
方法 | 召回 | 准确度 | F1 值 |
---|---|---|---|
Baseline (基线) |
78.77 |
87.43 |
82.87 |
Hierarchical I |
83.32 |
85.87 |
84.58 |
Hierarchical II |
83.72 |
85.28 |
84.50 |
All Dependency (全依赖) |
83.90 |
85.31 |
84.60 |
结论
在本文中,作者提出了一个查询理解的方法,利用了通过提取层次语法特征获取的语言解析知识以及从领域无关的解析树中获得的语义关系特征。在推导模型讯息的过程中,融合了结构化的关系(例如子从句)和语义关系(例如链式依赖)。在多个领域的、实际自然语言查询上的实验结果表明:使用语言解析特征增强的语义标签模型可以提高语义复杂查询中的理解性能。
对于之后的工作,可以探究基于一步语义标签下的层次查询方向。可以将本文中提到的增强模型运用于真实系统的查询理解中,收集真实系统用户的口语、文字查询用于进一步的评估。
附一点点我的小想法:
– 考虑利用解析树中的层次特征和语义关系特征是一个不错的点,因为现在已经有很多比较完善的解析器可以帮助我们获得这些信息,是一个很不错的切入点
– 有点不是很完美的地方就是:实验部分太过简单粗暴,没有很好地解析为啥实验结果会好~,如果能对实验结果进行深入的分析就更好啦~
参考文献
[1] J. Liu, P. Pasupat, S. Cyphers, and J. Glass. ASGARD: A Portable Architecture for Multilingual Dialogue Systems. In Proc. of ICASSP, 2013.
[2] D. Klein and C. D. Manning. Accurate Unlexicalized Parsing. In Proc. of ACL, 2003.
[3] Y. Miyao, R. Saetre, K. Sagae, T. Matsuzaki, and J. Tsujii. Task-Oriented Evaluation of Syntactic Parsers and Their Representations. In Proc. of ACL-HLT, 2008.
[4] S. Sarawagi and W. W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction. In Advances in Neural Information Processing Systems (NIPS), 2004.