我遇见了我 | 虚拟数字人的养成，FaceGood 虚拟数字人开源技术研讨会

发布时间 : 2022-02-14 阅读量 : 2208

2022开年，Magic Data 和虚拟数字人制作公司FaceGood，以及清华大学，思必驰等机构，举办了一场虚拟数字人开源技术研讨会。Magic Data 创始人兼CEO张晴晴博士受邀出席论坛。在论坛上，就虚拟数字人驱动技术、软组织动作捕获跟踪技术、交互技术、数据处理技术进行了热烈的交流。

Magic Data 多模态数据处理系统Annotator®5.0，为虚拟数字人的底层架构提供了基础重要的多维度数据支撑。

不断涌现的虚拟数字人 在元宇宙的巨大的市场中，高精智能的虚拟数字人仿佛一夜之间渗透到了各行各业，正吸引着海内外厂商加速布局元宇宙赛道。能在另一个宇宙中遇见不同声音、样子甚至不同性别的自己，这让生活在现实中的人们产生了真实的期待。

虚拟数字人需要多模态的技术驱动和丰富的数据支撑，才能让数字人“立体”起来。过去的数字人，更多的是只是一种感官存在的“物品”。他们会微笑，会说话，会唱歌，但他们没有情感，不会和人交流。

情感人机交互 ——“对话式AI”技术与数据

人工智能的终极形态是情感需求，虚拟数字人能够刺激到人类的情感需求，前提是他们必须做到与人交互，“对话式AI”技术与数据，能够实现虚拟数字人与人类交流相处。

“对话式AI”需要全流程的准确和高效，将用户语音转换为文本，理解文本含义，搜索符合语境的最佳应答，最后使用文本转语音工具提供应答。

在技术层面，对话式 AI涉及语音识别、自然语言理解和语音合成等核心技术。想要通过这些技术实现人和机器之间更自然的对话，面临两点技术挑战：

一是个体语言体系的差异化。由于所处地域、文化、教育背景的不同，每个人的语言表达都是独特的，这种个性化在人与人之间的沟通中都难免出现理解偏差，更何况是一台机器。对于AI而言，中文不是一种语言，而是13亿种语言。

二是对话式口语常常会有语序颠倒、犹豫、迟疑产生的停顿。在复杂的多人交互场景中，也不可避免会出现语句打断、抢话、交叠音等问题，这些语音特征为 AI 建模带来了很大困难。

真实的对话数据和多语种语料库建设是解决上述问题的关键，为机器注入知识图谱、中文、方言、外语等多种语料，才能让机器像人一样理解自然语言。

1、语音识别技术和数据

语音识别，主要是将人类语音中的词汇等内容转换为计算机可读的输入，这是计算机学习人类语言的第一步，上述提及到的千人千面的个性化表达以及对话口语颠倒、犹豫、迟疑等，这些被输入的“内容”对于机器来说都是非常重要的学习要素。

2、语音合成技术和数据

语音合成，主要是将计算机产生的文字（自己的或者外部输入的）转变为人类可以听得懂的、流利的汉语口语的输出。人类在语言表达的时候总是附带着语气与感情，语音合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

3、自然语言理解技术和数据集

自然语言理解，主要是计算机通过对输入数据的理解和分析，让人类与机器能够用自然语言进行有效地通讯交流，不仅让机器能够“听懂人话”，更能让机器“讲人话”。

更多数据集样例可在MagicData官网进行查看：https://www.magicdatatech.cn/datasets

希望未来虚拟人不仅可以和人交流，还可以千人千面，能够真的和“我”一样，有一样的动作习惯，有常用的表情，有熟悉的语气等等。在人机交互过程中，机器要想感知人的情感色彩，光靠声音是不够的，更多信息传递蕴含在面部表情或语言内容中，情绪感知是一个多模态综合评价的结果。而这些，需要定制化对每个个体进行多模态的数据采集和刻画。

Magic Data 多模态数据处理系统Annotator®5.0，为虚拟数字人的构建提供了最基础最重要的多维度数据支撑。在Annotator®5.0底层结构上，借助了大量AI技术，通过对数据的预处理，捕获基础刻画能力，再通过人工后期精细化加工的方式，进一步优化特征，从而最大程度保证了对每个个体的刻画能力。

pc端试用链接：https://www.magicdatatech.cn/

数据是人工智能的基础建设，不论元宇宙还是虚拟数字人，一切有关人工智能的构建都离不开数据，合理有效的使用数据，才能让机器更好地理解人类，让人类更好地探索未知。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

我遇见了我 | 虚拟数字人的养成，FaceGood 虚拟数字人开源技术研讨会

即刻与 Magic Data 建立联系？