行业洞察 | 对话式AI : 语音助手时代的开启

发布时间 : 2022-06-20 阅读量 : 1894

对话式交流是人与人之间相互理解、彼此传递信息最方便、最重要的媒介。如今，是人工智能的时代，也是每个人都能够拥有语音助手的时代。几乎每个人手机上都有个 “小爱同学”，“Hi Siri” 或者 “叮咚叮咚”... 这些语音助手。

但是，目前我们与这些语音助手的交互还不能如同人类交流一般顺畅自如。语音助手在与人的交流中，很容易陷入 “傻瓜模式” 或者 “固定套路回答模式”，经常答非所问，更不用说和人们智能、个性化交互。这主要是由于这些语音助手背后缺乏对语音语义的准确理解、对话逻辑的构建以及正确的反馈。

语音助手的看似仅仅是个手机APP，但其内部算法原理却异常复杂。其普遍结构通常需要四组输入和输出，管道的每一层都分别需一组自然语言理解（NLU）、对话状态跟踪（DST）、对话策略管理（DP）和自然语言生成（NLG）。复杂的结构使得语音助手的智能化变得充满挑战。

多个功能模块的联合优化

对话式AI语音助手使用语音进行交互，底层算法涉及语音识别、自然语言理解、对话跟踪、决策管理和语音合成等个模块。每个模块使用不同的深度神经网络模型和算法来构建，彼此之间相互协作才能完成语音助手与人类之间的交流。每个模块单独优化会往往会陷入局部最优。如何保证多个功能模块之间相互促进、共同优化是这一问题的难点。

真实场景下对话数据紧缺

AI语音助手算法模型的训练依赖大量对话标注数据。由于对话式语音交互数据采集场景复杂、采集过程需要多人配合、且采集周期较长，导致这些数据稀缺。任何深度学习工作研究的前提都是数据，这些数据采集、清洗、标注、发布工作的耗时、耗力、人工成本高都阻碍对话式AI助理发展的绊脚石。

端到端神经网络联合优化

为改变人工智能助手目前的困境，Meta AI 宣布了 “CAIRaoke计划”。他们开发了一种端到端神经模型，该模型比人们现在所熟悉的系统更支持个性化的情境对话。与传统人工智能助手不同，在 Meta AI 的神经网络模型中几乎不存在事先设定好的会话流，使用这个模型，只需要一组真实场景录制的训练数据即可。同时，端到端联合优化可以消除对上游模块的依赖，进而提高开发和训练速度，使人们以更少的功耗和数据对其他模型进行微调。由 “CAIRaok 计划” 所开发的模型，用户可以随意地与他们购买的人工智能会话助手沟通，这样他们就可以在对话中引用早些时候的内容，如果全部改变话题，或者提到依赖于理解复杂、微妙的上下文的情景，他们还能够以新的方式与机器人互动，比如使用手势。

采用大量对话式标注数据

对话式 AI 交互数据的缺乏导致智能语音助手没有足够的学习样本变得更 “聪明”。由于对话式 AI 语音助手产品往往面向的是全球消费者，因此采集多语种、多场景、多种说话风格的对话式语音数据，赋能语音助手更全面的学习样本，是促进AI语音助手与人畅所欲言，对答如流的关键。目前，Magic Data 作为全球领先的AI数据解决方案提供商为算法工程师提供大量对话式交互数据。其中包括不同语种、不同风格、覆盖不同场景的对话式数据，样例如下：

法语对话音频数据集：点击了解更多

郑州话对话音频数据集：点击了解更多

数据是一切深度学习算法研究和落地的基石。人工智能语音助手的成长离不开数据和算法的双向加持。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 对话式AI : 语音助手时代的开启

即刻与 Magic Data 建立联系？