行业洞察 | 小米发布人形机器人的AI技术

发布时间 : 2022-08-12 阅读量 : 1866

昨晚的朋友圈被雷军年度演讲刷屏，雷军讲述了他人生中多次经历的挫折与迷茫，并分享了穿越人生低谷的感悟，让每一位在创业路上的人都感同身受。

就在演讲快结束时，雷军顺手扔出了一个王炸——全尺寸仿生人形机器人CyberOne。小编发现，功能介绍里，提到CyberOne的听觉传感器配合音频算法，可识别6类45种人类情绪语音，外加85种环境音识别。

而这其中就包括夹杂着语种混杂的识别，例如："我的iPad不能下载APP了，可以陪我去Apple Store修理一下吗"、"明天就是Dealine了，我的paper还没有Ready"、"老板的Schedule需要调整，麻烦你Check一下你的Email"...

这种夹杂了英文的汉语频频出现在我们的日常沟通中，除了英文，其他小语种出现在中文语句中，在学术上称之为语种混杂（Code-switch），是目前语音识别技术面临的重要挑战之一。对于人机交互语音识别系统，Code-switch带来的挑战主要体现在下面三个方面。

「挑战 Challenge」

————01 · 非母语口音严重————

中文中夹杂的其他语种非我们的母语，我们的发音会带有各种方言口音。例如，闽南普通话和天津普通话的口音都不同，更何况大家说的非母语的语言。汉语中共有八大方言，即：官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语。其中，官话是与标准普通话最为接近的一种方言，其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握，他们的普通话发音不可避免地受到其方言母语发音的强烈影响。有资料显示，80%左右的普通话使用者带有不同程度的方言口音。当说话人带有某种方言口音时，针对标准普通话构造的语音识别器的性能往往会大幅下降。

————02 · 不同语言音素构成不同————

Hay and Bauer 在《Linguistics Student's Handbook》(2007) 中研究过一些语言的使用人数以及类型学信息，当然也包括了音素的数量，其实验结果如下。横坐标表示人口（对数人口、Log Population），纵坐标表示元音的数量，每个小圆圈代表一个语言。左图是基本单元音的情况，右图是额外单元音的情况。

上述研究认为，音素的多少跟人口有关系，这就导致了多语种之间音素的不同。语音识别中，声学模型通常处理人类语言的原始音频波形，预测每个波形对应的音素，通常在字符或子词水平。语言模型指导声学模型，抛弃了在适当的语法和讨论主题的约束下不可能实现的预测。由于Code-switch包含多个语种，之间音素构成的不同，会增加混合声学模型建模的困难。

————03 · 带标注的混杂语种语料库稀缺————

上面两个问题都是技术问题， Code-switch语音识别所面临的本质挑战，还是带标注的混杂语种语料库稀缺。由于录制这类数据要求双语种甚至多语种人群，录制费用更高、耗费时间更长，因此混杂语中的语音语料库非常稀少。有些论文如Qinyanmin的《Data Augmentation for end-to-end Code-Switching Speech Recognition》用TTS数据扩充的方案来提高Code-switch语音识别系统性能。

「解决方案 Solution」

针对Code-switch语音识别所面临的挑战，解决问题的本质还是在于数据。假设有足够多的Code-switch语音识别数据，可以通过让神经网络从大量数据中学习相关的口音、多样化音素信息等Code-switch带来的问题，Code-switch语音识别系统自然会更鲁棒。对于录制多语种混杂数据，可以通过专业的数据公司帮助算法工程师节省大量的人力、物力、财力。目前Maigc Data(北京爱数智慧科技有限公司)拥有用于多个场景、多个语种的相关语料数据，样例如下：

中英混合音频数据集：点击了解更多

口音英语朗读数据集：点击了解更多

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 小米发布人形机器人的AI技术

即刻与 Magic Data 建立联系？