行业洞察 | 如何更好的实现与虚拟人的互动体验？

发布时间 : 2022-08-02 阅读量 : 1331

2020以来，新冠疫情让很多明星“营业”困难，AI技术却让虚拟人走红出圈。近期最为火爆的虚拟人当属百度的度晓晓，作为一位可甜可咸的小美女。与同为百度出品的虚拟人龚俊共同演唱歌曲，几十秒创作的画作卖了17万，为高考学生陪聊减压，用时1秒钟即兴写成高考作文《苦练本手，方能妙手随成》...网友们不禁感慨，还有她不会的吗？

无独有偶，这些数字虚拟人早已进入了从音乐、视频到游戏等众多领域，更不用说像Instagram和TikTok这样的社交网络。二次元萌宠“黄逗菌”吸引大量粉丝，“初音未来”正式入驻淘宝直播，“洛天依”出专辑开演唱会甚至登上卫视晚会…… 很多90后00后的idol已经从明星艺人变成了人设永远不会崩塌的虚拟人。

目前，在与虚拟人的互动中，语音成为重要的交互媒介之一。如何让虚拟人听懂我们的表达，从而对我们的诉求给予合理的答复，是虚拟人底层技术的关键。

「虚拟人的语音交互技术」

有关虚拟人的语音交互技术，主要包括：语音识别ASR、语义理解NLU、知识图谱KG、语言生成NLG以及语音合成TTS等模块。

01 · 语音识别 ASR：理解用户诉求

虚拟人的语音识别如同我们人类的耳朵，在与人交互过程中，需要通过聆听对方的语言从而理解对方的意图。目前大部分产品为单轮对话，采用一问一答交替的形式，对用户的纠正信息、打断对话等不做响应处理。期待未来的技术发展方向能够打造出边听边思考的信息流状态。

02 · 语义理解NLU：听懂用户意图

在语义理解层面，数字人要做到除了字面含义外，用户的意图识别、情绪识别、对话的上下文信息关联都是需要考虑的因素。

03 · 知识图谱KG：最强大脑

知识图谱中，依赖于通过构建相互关系，检索用户诉求的答案，构建合理的回复逻辑。

04 · 语言生成NLG：生成结果

语言是人类所擅长的，对该技术的预期自然很高。如果数字人的表达像小朋友，有时反而会很讨喜。在语言生成结果上，需要结合用户情绪、心理预期维度的研究给予合理的回复。

05 · 语音合成TTS：播放给用户听

虚拟人的语音合成相当于人类的发音器官。目前大部分产品选择影视明星的声音或者合成具有特色的AI虚拟人声音，对用户进行回复。

「与虚拟人交互的瓶颈」

用户体验决定产品能走多久。针对上面的基础技术支撑，影响用户体验的瓶颈主要集中在语音识别和语音合成的效果。由于虚拟人面向全球的粉丝用户，需要识别不同语种、方言、各种风格、各个年龄段的说话人语音，这就需要虚拟人产品的深度语音识别模型具有很强的鲁棒性。另外，合成语音直接影响用户听感，如何合成拟人化、逻辑清晰合理的语音是影响用户体验最关键的因素。

由于目前的语音识别和语音合成都是基于深度学习模型。其模型训练数据覆盖的全面与否，是否具体域内数据自适应都会影响其效果。Magic Data作为全球领先的AI数据解决方案提供商，拥有海量对话语音数据、以及语音合成相关的语料库，覆盖多领域、多语种、多方言，多场景，能够为提升语音合成的鲁棒性以及语音合成的拟人化、真实性提供更多保障。具体样例如下：

天津话男声TTS数据集：点击了解更多

东北话男声TTS数据集：点击了解更多

中文女声TTS数据集：点击了解更多

中文男声TTS多情感库：点击了解更多

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 如何更好的实现与虚拟人的互动体验？

即刻与 Magic Data 建立联系？