谷歌发布大规模对话语料库，涉及17个领域含1.8万个注释

如果没有额外的数据和再培训，像谷歌助手这样的人工智能助手如何更好地支持新服务？

这是谷歌研究人员在最近的一项研究中试图回答的问题，该研究引入了一种在没有特定领域参数的情况下跨服务使用该模型的方法。

作为其中的一部分，该团队发布了语料库——模型引导对话(SGD)语料库——他们声称这是最大的面向任务的对话语料的公开汇编。

软件工程师Abhinav Rastogi和谷歌研究项目总监Pranav Khaitan在博客:中写道:“今天的虚拟助手帮助用户完成各种任务，包括寻找航班、搜索附近的活动和电影、预订、从互联网获取信息等。”

“尽管取得了巨大的进步.在最先进的模型中，适应挑战经常被忽略。这部分是由于缺乏合适的数据集来匹配虚拟助理的规模和复杂性。”

因此，SGD包含18000多个人与虚拟助理之间的带注释的对话，涉及与17个领域服务的交互：从银行、大事件到媒体、日历、旅行和天气等。

对于大多数字段，数据集包含几个不同的APIs，其中许多APIs具有重叠的功能，但是不同的接口反映了典型的真实场景。评估集包括未包含在培训集中的服务，主要用于量化模型对api更改或新api添加的健壮性。

至于上面提到的模式引导方法，它使用每个服务或应用编程接口的自然语言描述及其相关属性来学习分布式语义表示，它作为对话系统的附加输入，然后作为单个模型来实现。

该团队表示，统一模型是谷歌开源对话状态跟踪模型的核心，该模型促进了不同服务中相似概念之间共同知识的表达，使得运营培训数据中不可用的新服务成为可能。拉斯托吉和卡伊坦写道:“我们相信这个数据集将是建立大规模对话模式的良好基准。”。“我们很兴奋，并期待研究团体以各种创新的方式使用它来推广对话技术。”

新的数据集和模型是在谷歌的辅导转换偏好启发(CCPE)和模仿大师-1(两个人之间的一对对话数据集)开放后发布的。(前者包括与人们就他们的电影偏好进行的500次对话，总计10，000次，总计12，000次对话。)

谷歌将其描述为向模拟自然语言系统迈出的一步，自然语言系统可以达到人类水平的性能。

极牛网精选文章《谷歌发布大规模对话语料库，涉及17个领域含1.8万个注释》文中所述为作者独立观点，不代表极牛网立场。如若转载请注明出处：https://geeknb.com/3182.html