如何评测一个智能对话系统(一)
本文从对话系统的分类介绍与评测目标进行分析,解释了如何评测一个智能对话系统。
自然语言对话作为新一代的人机交互媒介,已经创建了广泛的应用程序。长期以来,研究人员一直在探索机器产生自然回复的不同方法,包括基于检索的回复,端到端的生成回复,以及问答和推荐系统。 从智能家居设备到智能电话助手,从客户服务到情感陪伴,我们周围已经出现了各式各样的聊天机器人。 然而,智能对话系统的表现往往因不同的应用场景和目标而异,因此行业内一直都没有一个统一的对话质量评测标准。
近年来,“如何评测一个智能对话系统”这个开放的问题引起了相关领域研究人员的极大关注。在过去的几年时间里,我一直致力于探索智能对话系统的评测方法。由我设计的对话评测方法已经在多款智能对话产品上得到验证,有效推动了产品的持续优化和迭代。与此同时,该评测方法被nlpcc2019选为开放域对话系统竞赛的评测标准,受到了领域专家的认可。
那么,对于这样一个看似无解的问题,我是如何着手进行设计的呢?
首先,对话评测是一个非常大的概念,它涉及到很多不同领域的知识,而且非常的主观,无法用一个统一的标准评判。说白了,这个问题就是在评价一个人说话的水平,只不过被评价的对象是一个机器人。不过,这个事情也不是完全无章可循。我们可以通过聚焦和拆解的方法把这个大问题分成多个可量化的小问题。
事实上,想要有效的评测一个对话系统,我们首先要知道被评测对话系统的目标是什么。换句话说,就是我们期待对话系统给我们带来什么样的价值。只要明确了目标,我们就可以围绕目标建立标准,再通过标准沿伸出评测的方法。
智能对话系统的分类
谈到对话系统的目标,就不得不提及对话系统的分类。一般来说,人机交互的对话场景一共分为三大类别,分别是任务类对话,问答类对话,和闲聊类对话。这是目前业界比较公认的方法,其依据是这三类对话系统背后所运用到的核心技术与实现方法截然不同。
不过,在真实的应用场景中,几乎每款对话类产品都同时具备了上述提到的至少两类对话系统的特征。目前市面上的对话系统往往同时具备解决任务的能力,回答问题的能力和闲聊的能力。因此我们不能单纯的以这样的分类方式为对话系统分别设计评测方法,而是跳出技术的实现框架,从应用的角度寻找所有智能对话系统共同存在的特征,并以这些特征作为考量条件去设计评测方法。我将这些特征总结为话系统的对话情境,对话场景以及对话目的。
智能对话评测的考量条件
对话情境-上下文内容
在对话系统中,回答内容的好坏与上文的内容有着直接的关联,在评价回答内容的时候,最主要的一个限制条件就是上文问题的内容。在评判一个对话系统生成答案好与坏的时候,测试者需要结合上文的内容才能对答案作出比较公正和正确的判断。这当中不仅需要判断当前对话内容的质量,还涉及到对话所表达内容逻辑的一致性与情感的合理性。上下文内容对于多轮对话的生成起着至关重要的影响。一组对话内容被放在不同的对话情境下会表现出皆然不同的效果。因此,在对一组对话内容进行评测时,有必要充分理解其所在的对话情境。
对话场景 – 机器人扮演的角色
在不同的应用场景下,对话系统需要扮演不同的角色以实现用户特定的需求和意愿。目前比较主流的应用场景包括家庭场景,早教场景,客服场景和车载场景。一个特定的场景下的对话内容,总是包含特定的术语或套路,以及相关领域的知识库或知识图谱。这一类的对话往往可以返回一些约定俗成的回答或解决方案。在对对话系统进行判定之前,测试人需要通过想象力将自己置身于该场景中。理解对话系统所尝试扮演的角色,能够帮助我们更加客观的对其进行评测。
对话目的 – 话题与意图
在现实生活中,人与人的自然语言对话可分为两大类,即有目的的对话和无目的的对话。有目的的对话可以根据提问者或主动发起对话者来引导当前对话的目的。在对话结束时,我们可以通过判断目是否达成而判断对话的质量。然而,在实际对话过程中,对话的目的并不总是能够被清晰的定义。在对话评测时,我们不能只关心有明确目的的对话,而忽略无目的的对话。在无目的的对话内容中依然会有信息的传递,和情感的交互。因此,无论对话内容是否有明确的话题和意图,我们都应该关注其传达的信息和情感。
对话系统的评测目标
这些对话系统通用的考量条件,就是我们评判一个智能对话系统的先觉条件。当明确了评判条件以后,我们就能给一组好的对话内容进行定义,以此来对一个智能对话系统进行评测。
首先好的对话内容应该是符合语义情境的,上下文内容应该是紧密关联的,并且是逻辑自洽的。接下来,好的对话内容应该可以满足特定的应用场景,对话的内容表达是清晰明确的,同时切合用户期待的。最后,无论话题是开放领域还是垂直领域的,无论意图是达成还是未达成,好的对话内容都应该是具备的信息和情感的。
总结
至此,我们把如何评价一个智能对话系统的问题转化如何定义一个好的智能对话系统,并通过实际对话类产品在真实场景中的应用情况,归纳出对话评测系统的考量条件与标准尺度。有了明确的尺度,智能对话评测的具体任务设计也就变得有章可循了。
一般来说,对话评估的工作主要从两个方面进行处理:自动评估和人工评估。我将在下一篇文章中介绍当前主流的自动机器对话评测任务,和人工标注方法。我将分析这些任务和方法的不足之处,并阐述我自己是如何结合自动评测与人工标注来设计智能对话评测方法的。
本文由 @单师傅 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash ,基于 CC0 协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: