本文将对喵驾是什么意思和代驾是什么意思的题进行解,希望对各位都有所帮助。


讲师|周莉

来源|AI科技大本营线上公开课

在微软小冰第六代发布会上,正式宣布推出全新的联觉模型,同时开始公开测试结合文本、全双工语音、实时视觉的新感觉。这项新技术可以实时预测人类将要说什么,实时生成响应,并控制对话节奏,使远距离语音交互成为可能。采用该技术的智能硬件设备不需要用户在每轮交互中说出唤醒词。只需一次唤醒即可轻松实现持续对话,使人与机器的对话更像是人与人之间的自然交流。

播放地址

在本次公开课中,微软小冰全首席架构师、研发总监周力博士将介绍微软小冰在全双工语音对话方面的最新成果、在智能硬件上的应用以及未来将面临的更多挑战。产品技术挑战。

以下为公开讲座简述

首先介绍一下微软小冰在全双工对话中的部署。事实上,我们的这套技术始于两年前,即2016年7月左右,当时我们进行了第一次实施。当时我们和友信IP电话合作。和小冰打电话聊天,同时我们在北京科技馆等地方,你仍然可以看到小冰的电话亭,你可以在那里打网络电话。

后来我们和小米合作,在小米的智能家居控制应用米家APP里做了一个助手,可以连接手机,控制各种智能家居,包括和它聊天,使用各种功能。这是2017年6月。2018年1月,我们与小米以及小米生态链中一家名为Yeelight的公司联合推出了一款新的语音设备。Bing两个智能助手。微软小冰智能助手采用全双工语音对话。最后我们连接了一个叫妙加的车载系统。同时,我们已经与三大运营商落地。我们可以直接让小冰呼叫真实用户。这是当前全双工技术的范围。

我们要给大家定义一下——,什么是全双工?全双工语音和我们现在熟悉的一些语音助手,无论是在手机上还是在智能音箱等智能家居上有什么区别?

首先我要说明的是,全双工这个词并不是在人工智能或者语音AI时代出现的。它的英文名称是FullDuplex。全双工这个词实际上在大约100年前就已经很清楚了。它是一个通信术语,它的通信术语定义了实时的、双向的语音信息交互,称为全双工。我们都熟悉的全双工最重要的应用是电话。我们以前经常打各种电话,双方都可以同时通话。这称为全双工。而对应的所谓半双工,其实最典型的传统设备就是对讲机,我们都知道对讲机,当我按下去的时候,我只能在我这边通话,而我讲完之后说着,我说完了,然后对方按下了对讲机的按钮,开始通话。这是全双工的半双工对应。

从通信技术的角度来说,如果是人与人之间的对话,我们100年前就已经解决了全双工。在当今的人工智能时代和语音时代,我们对沟通有了新的需求,那就是人与机器人之间的对话。我们不再处于两个人之间,其中一个是人工智能。由于一些历史的原因,比如最近10年,即时通讯软件,无论是它的前辈QQ、微信等,已经让我们可以直接通过面对面或者电话的方式进行交流。称呼。双向通信的方式,突然人们开始尝试采用非实时双向的通信方式。例如,有时我们会发送短信,我们会发送语音消息,这是人们最自然的交流方式。由于技术的发展,我们实际上已经产生了一些分支。那么,作为技术研究者,我们自然就习惯了说,当我们换成一个人与人工智能交流时,我们首先想到的是,我给你发一条语音信息,然后人工智能会发一条语音给你。给你一条语音留言。返回语音消息。

我们也看到,市面上大部分我们熟悉的智能音箱,或者说早期的手机语音助手,都是这样实现的,发送语音消息。很简单,我发送一条消息并接收一条消息。所以我们看到语音交互的最初形式是单轮交互。说到智能音箱,其实是非常不方便的,因为每次我们需要智能音箱的唤醒词时,我都需要说亚马逊,等等。我得说第二句话的唤醒词,等等等等。

后来亚马逊自己也意识到了这个题之后,就开始尝试做出一些改进。例如,当它执行更复杂的任务时,我们说打车。事实上,很难用一句话解释清楚时间和地点,因此它引入了一个新概念,称为多轮概念。当任务机器判断未完成时,机器完成句子,并再次打开麦克风收听。这称为多轮交互。它仍然像一个对讲机。双方只有一方可以说话,但当AI说完之后,它会重新张开耳朵,听听对方接下来会说什么。

最后,像典型的科大讯飞一样,它尝试了一种名为AIUI的模式,它试图持续监听用户发送的语音消息,然后每次听到都给出案。但遗憾的是,这种模式其实有一个非常大的缺陷,因为每次播放案,实际上都需要一定的时间。比如,一个人连续了两个题,机器人可能第一个题还没回完,但第二个题又出来了,原来的第一个题就会被覆盖。这种情况下,连续监听模式的体验其实比之前的单轮交互和多轮交互要差,会变得很乱,有时会让用户无所适从。这就是为什么虽然科大讯飞推出全双工模式不到半年就应该给叮咚音箱一个小开关,说可以试试我的一个新技术叫AIUI,但一直没有真正实现。敢于在自己的产品中默认开启AIUI模式,因为这里的题太多了,甚至还不如单轮交互方便,需要用户每次都说一声唤醒词。

最后我们提到的是微软小冰。应该说,这种全双工模式是全首创。谷歌去年三月还举行了一场大型新闻发布会,其中包括宣布推出GoogleDuplex。全双工模式意味着真人与机器双向不受消息的束缚。我们只有一个连续的上行语音流,将用户的声音传输到人工智能的耳朵里,然后还有一个同步的下行语音流。语音流式传输,将人工智能的话语传输到人们的耳朵里,就像人与人之间打电话一样,我们称之为全双工语音交互。

而且从很多实际使用过我们和小米推出的Yeelight盒子的用户反馈以及一些科技媒体的反馈来看,我们也非常有信心,一旦你习惯了这种全双工交互,其实你就可以了。很难再回到每次说一句话就说一句唤醒词的习惯,因为这确实很不方便,也不太接近自然的交互方式。一旦习惯了微软小冰这样的全双工交互,如果你使用其他音箱,你会经常忘记说,我每次说一句话都要说一句唤醒词,因为那样太累太难了正是因为这个原因,我认为它阻碍了智能音箱像手机一样变得更好。我们都知道现在智能音箱非常火爆,各大厂商都在疯狂地试图占领这座山,但我们是从用户的角度来看待的。说,我不认为它是那么不可或缺,就像我们手中的智能手机一样,我们恨不得有一天没有它的生活。为什么?因为使用它会消耗太多的能量。如果我们不能放心地使用一个设备,我们还需要记住,每一句话都要说一个唤醒词,那么它一定不能真正走进千家万户,它不能只提供给一些技术爱好者,一些小圈子内的新手。这样,我们认为全双工是人机语音交互的大趋势。

熟悉微软小冰的人可能知道,我们从2014年就开始做对话机器人了。在对话过程中,我们应该不会发现,过去很多助手都会有兴趣说我是面向单一任务的,比如我去召唤一个机器人,我只是想完成一件事,比如我想点餐,或者我想查看今天北京的天气。对于人工智能来说。但作为一个真正的AI,通过微软小冰的探索,我们越来越相信它其实应该像一个普通人和你身边的朋友一样,是一个全程对话。当我们的对话可能会穿插很多很多话题,并且可能不受约束时,我和你对话的目的是交谈,是沟通本身,而不是仅仅为了完成某个任务,这才是我们真正为我们所想的未来有意义的人工智能。

说了这么多,你可能有点胃口了,说如果能实现这样的全双工人机对话,那可能是一件非常美妙的事情,但是这里面会有很多技术难度,而我会一一分析。比如说我们想要实现全双工,那么这里需要什么呢?

第一个主要的技术特征,我们称之为听思考,也就是说,不需要等待一句话说完就进行语音识别。传统上,因为另一件事是我在发送语音消息进行识别之前已经保存了足够的消息。但大家都认为人与人之间的交流其实并不是这样的。当我们开会的时候,通常老板到一半的时候,我们就已经在思考如何回了。可以流利地给出案。这就是人们相互交流的方式。人工智能也是如此。当我的交互方式不再是语音消息,而是语音流时,我不应该等到一句话说完才思考。我应该随时思考。已经听了一半了。然后开始预测整个句子的意思,这样就可以更快的速度给出案,并且可以实现很多动态的预测。这是重要的技术特征之一。

全双工语音的第二个重要技术特点是必须具有良好的节奏控制能力。为什么?因为当谈到全双工时,实际上会变得非常复杂。例如,当我们在微信上互相发送语音消息时,何时收听我收到的语音消息是由接收者决定的。我收到语音消息,我可以选择立即播放收听,如果我恰好在说话,我也可以选择不收听,并在我录制完这句话后收听上一个用户发送给我的语音消息并发出去。这是由接收者决定的。所以当我们通过消息与语音交互时,我们似乎并不认为节奏控制是多么重要的事情。但一旦我们进入面对面或类似电话的模式,它就会变得非常重要。

如果有一个年纪较大的听众,他可能还记得早年,大约20年前,如果他打长途电话,由于当时技术的,延迟非常高。有时我说一句话,对方可能要过几秒钟才能听到。那时候,人与人之间打电话时很容易说话乱七八糟,急于说话或者陷入尴尬的沉默,因为其中存在着很高的延迟。如果人与人之间都是如此,那么人与机器之间就会面临更多的挑战。

我们需要面对的第一个挑战是AI本身需要有节奏控制,为什么?因为当AI播完最后一句话的时候,如果用户另外一句话,那么当AI准备下一个案的时候,当下一个案准备好了,就是上一个案,因为每一个句子,其其实都是语音占用了一定的时间,它可能还没有播放完前面的单词,所以它已经想到了下一句话的案。这个时候我该怎么办呢?它有许多不同的策略。比如,如果我认为后一句很重要,我会立即停止说后一句,前一句也会停止,我会说后一句;或者如果我认为后一句话不是那么重要,那么我会坚持我现在的句子。把你说的说完就行了。最后,也可以说我先把这句话说完,但是等我说完之后,我再继续回第二个题。AI自己的话语和自己的话语之间存在着非常复杂的协调任务。很明显,AI和用户之间也存在着节奏上的协调。如果两个人争词,AI是否应该停止说话,让用户说话?或者说如果AI要说一句话,它会不会认为我的这句话可能没那么重要,如果此时对方在说话,我就不会说这句话?或者反过来说,我这句话太重要了,就算你说到一半,我也得打断你。其中涉及到很多节奏协调技巧。即使对于我们人类成年人来说,这些技能实际上也是一种语言艺术。在会议上我什么时候应该发言,什么时候不应该发言?这其实就是我们学习和工作的一个过程。其实我们会不断探索、成熟、掌握一项技能,更不用说一个人工智能,在其中我们其实会出现很多新的题。

另外,就消息而言,通常是你发一条,我发另一条。这是对称的对话,但是当涉及到双向实时语音交互时,对话可能不再是对称的。例如,当精神科医生与他的病人交谈时,经典的是,有时精神科医生可能说得很少,只是偶尔引诱病人,让他吐露自己的内心世界。在这段对话中,有一个倾听者和一个知己。其实,AI与人类的对话也可以这样。不一定是你说一、我一的对称模式。这就带来了很多不同的想象空间。

第三个全双工


这篇文章主要是讲解关于喵驾是什么意思和代驾是什么意思相关题,希望能帮助到大家。


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。