大咖直播:面向交互的人工智能

大咖直播节目的嘉宾是百度杜罗斯(Baidu DuerOS)的首席福音传道者曹红伟,他分享了《面向交互的人工智能》这个主题。

他主要解释了语音交互中使用的人工智能技术,如人工智能、NLU、NLG、TTS等。以及基于这些细分技术构建的面向对话的人工智能操作系统——DuerOS。通过这种共享,我们可以基本上掌握如何在智能语音交互平台上开发应用程序,并进一步体验智能语音如何为我们的生活服务。

什么是互动?互动指的是a和b之间的一系列动作和行为,表达为《京氏易传·震》:“冲击将阴阳分开,互动地使用事物。”

什么是人机交互?人机交互是研究系统和用户之间交互的科学。该系统可以是各种机器或计算机化系统和软件。人机交互侧重于用户与计算机之间的界面,包括人与计算机之间的交互模式和使人以新颖的方式与计算机交互的设计技术。人机交互和人机界面是两个密切相关但又不同的概念。

在计算机时代,人机交互的发展过程如下图所示:

面向交互的人工智能

从键盘鼠标到触摸屏,再到语音交互,人机交互不断演变,从面向机器的人机交互到面向用户的交互。语音是一种非常低成本的通信手段和工具,给我们带来极大的便利。

语音交互有以下优点:一是速度,可以说是每分钟120到150个单词。第二是烹饪时松开双手,通过声音完成一些想要的事情。第三是直觉。语言是人类的天赋,也是一种自然的交流方式。第四是移情,包括声调、音量、语调和语速。这些特征传达了很多信息。

语音交互离不开人工智能技术。参与语音交互的人工智能技术如下图所示:

面向交互的人工智能

今天,智能语音交互正在为我们服务。背后有一整套技术和过程,从语音唤醒到自动语音识别,再到自然语言理解,最后通过自然语言生成和语音合成技术形成反馈。整个过程背后有许多细分的人工智能技术,如对话管理、深度学习、DNN、美国有线电视新闻网、自然语言处理、文本传输等。

面对如此广泛的人工智能技术,我们如何将它们应用于工作和生活?这类似于我们拥有电脑后如何使用电脑。计算机上的操作系统及其应用编程接口为程序员打开了计算机世界的大门。对于智能交互式人工智能系统,我们还需要一个类似的操作系统来方便有效地构建我们的人工智能交互式应用程序。

百度的杜罗斯是一个面向对话的人工智能操作系统,用于语音交互。它包括语音交互的整个过程,还提供了一个开放的能力平台,如SDK、工具、编程接口和设备,如下图所示:

面向交互的人工智能

DuerOS操作系统有三个层次,即智能设备开放平台(应用层)、对话核心系统(核心层)和技能开放平台(能力层)。接下来,我们将从基于DuerOS的智能语音设备、智能语音设的工作原理、智能语音交互的交互过程以及智能语音应用的开发过程等方面进一步了解DuerOS操作系统。

理解操作系统主要取决于哪些语音设备可用,并且可以基于这些设备打开特定的应用程序。杜罗斯有许多智能语音设备。一些小规模产品如下图所示:

面向交互的人工智能

DuerOS广泛用于各种场景和设备,如扬声器、电视、冰箱、手机、机器人、汽车、可穿戴设备、玩具等。这些智能语音设备的工作原理是如何工作的?

面向交互的人工智能

与传统设备相比,智能语音设备是交互式的。输入通过语音和触摸屏进行。本地功能通过TTS、麦克风、信号处理和其他方式转移到云中。智能语音是通过云人工智能、语音传输技术、NLU、NLG等特定人工智能技术实现的。最后,整合业务引擎、业务资源和技能服务,以便

这里,让我们以询问天气意图为例。用户发出语音命令后,智能音箱在本地识别出用户的唤醒语,然后通过音箱将语音传输到杜罗斯平台。DuerOS平台执行语音识别、语义理解,并将结构化数据发送到技能服务器。技能服务器处理请求,并将文本或可视化结果返回到DuerOS平台。杜罗斯平台接收到文本后,TTS服务器处理返回的文本,并将广播流发送到智能音箱。如果是屏幕音箱,可视化结果也可以显示在设备上。

那么,我们如何在杜罗斯开发智能语音交互应用?

智能语音交互应用的开发过程一般分为六个步骤,即注册、技能创建、交互模型建立、代码编译和部署、调试和验证、技能在线商务。以下是具体步骤的说明。

第一步,去https://DuerOS.baidu.com/dbp,注册成为杜埃罗斯的开发者。

面向交互的人工智能

步骤2,创建技能类似于在安卓或iOS上创建应用程序。

面向交互的人工智能

进入技能控制台,选择“从头开始”创建自定义技能。技能名为2-50个字符,呼叫名为2-15个字符。呼叫名是技能服务的入口。打开呼叫名称。不建议使用不常用的单词,将中文和英文混合,并将数字与汉字混合。技能创建后,会生成一个技能标识,这是杜罗斯系统中技能服务的唯一标识。

第三步是建立交互模型,这可能是智能语音应用程序和应用程序(如应用程序、小应用程序和网络)之间的最大区别。

面向交互的人工智能

用户查询的核心在这里被称为意图,建立交互模型是创建各种用户意图的过程。意图的标志相当于特定事件的数量。交互模型的建立实际上是一种面向界面的设计方法。明确的互动意图是在一定程度上决定技能服务的功能。

步骤4,编写代码并部署。

面向交互的人工智能

DuerOS免费提供高效安全的百度云服务。开放平台的在线编辑器为Python和节点提供语言支持。编码主要匹配和处理交互模型中的意图。在线编辑器中的代码将自动部署在百度云的CFC中,这是百度云的FaaS无服务架构的具体应用。当然,技能代码也可以用Java、PHP和其他语言编写,也可以部署在自己的服务器或其他云服务上。

步骤5:测试和验证技能服务。

面向交互的人工智能

DuerOS开放平台提供两种测试方法:模拟器和真实机器调试。调试真实机器时,为了确保技能开发账号与设备登录账号一致,通过对设备说“启动技能调试模式”来启动“技能调试模式”功能。应该注意的是,同时只支持一项技能测试。

第六部分是技能的在线商业应用。

面向交互的人工智能

类似地,在线发布过程类似于安卓市场或苹果商店中应用程序的在线发布过程。到目前为止,我们可以基于DuerOS的开放平台开发各种满足用户需求的智能语交互应用。同时,DuerOS还提供零编程智能语音交互应用实现。各种各样的应用可以给我们的生活带来更多的便利和乐趣!

通过音箱从早上叫醒你,通过装备有杜罗斯(DuerOS)的汽车机器出发去上班,和一个小助手一起安排一天的工作,小助手可以提醒你在工作中休息,孩子可以使用装备有杜罗斯的设备打电话、看电视和听故事。

随着交互形式的变化,交互技术已经发展到今天的智能语音时代。它可以直接应用于智能语音服务中的各种人工智能技术。没有必要深入关注特定的人工智能技术,如NLU和NLG。只要使用像杜罗斯(DuerOS)这样的基于对话的人工智能开放平台,就可以完成各种语音交互服务。

极牛网精选文章《大咖直播:面向交互的人工智能》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/2564.html

(36)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编认证作者
上一篇 2019年11月21日 下午4:52
下一篇 2019年11月22日 上午8:00

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部