行业洞察 | 小萌新—语音助手的环境自适应

发布时间 : 2022-07-11 阅读量 : 1665

语音助手已经成为生活中必不可少的小帮手。但是有的时候在室内用着得心应手的语音小助手换到更室外可能就变成“傻憨憨”了。就如同我们人类一般，小萌新—语音小助手到了新的环境，也会慌乱无措。就如同中国人听印度人说英语，自认为自己英语听力、口语都很棒的人，在第一次听带着咖喱味的印度英语时，也会怀疑自己听到的真的是英语吗？人类天生拥有适应环境的能力尚且如此，更遑论人工智能算法了。语音小助手对周遭环境敏感，是对域的不适应。迁移学习一直以来是语音识别、语音合成、说话人识别等各个语音领域的难题。

语音助手内部的人工智能算法往往是从大量数据学习得到，有时数据无法覆盖全部的应用场景，这就导致面对一些新场景，如弧形的会议厅、开阔的广场等场景下，语音识别的准确度大大降低。亦或者，对于大量录音棚录制的语音对话数据训练的模型，无法直接在一些专业领域被运用，如电商客服、金融智能客服、智能医疗领域等垂域。由于缺乏域内知识，导致模型效果在新的场景下，效果不尽人意。如何将模型自适应到各个垂域，一般会从两个方面考虑。

「迁移学习算法」

迁移学习指的是我们在A场景数据训练的模型，可以适应迁移学习算法，将这个模型应用到其他场景下，尽可能的保持这个模型的性能不受环境域的改变而受到影响。迁移学习放松了训练数据必须与测试数据独立且同分布(i.i.d)的假设，激励我们利用迁移学习来解决训练数据不足的问题。在迁移学习中，训练数据和测试数据不需要是i.i.d。不需要对目标域内的模型进行从零开始的训练，可以显著降低对目标域内训练数据和训练时间的需求。据文献《S. J. Pan and Q. Yang, “A survey on transfer learning” 》总结，迁移学习算法根据不同情况可以分为以下几类：

纵然上述迁移学习算法众多，但是算法的执行依然离不开域内数据的支撑。如果没有域内数据，上述的算法几乎都无法实施。

「域内数据自适应」

最简单有效的迁移学习方法，就是用少量的域内数据fine-tune已有模型。使得已有模型自适应到当前数据场景。上述迁移学习算法也离不开域内数据的支撑。而语音助手要想在应用于各个垂域，离不开在各个垂域数据上学习。这就需要Magic Data这样的AI数据解决方案提供商为众多工业界和高校研究者提供垂域的数据，以支撑上述迁移学习算法的研究和语音助手应用于各个领域。Magic Data拥有各个领域、各种语言、多种场景的语音对话数据，样例如下：

中文普通话对话音频数据集：点击查看详情

粤语车载音频数据集：点击查看详情

日语对话音频数据集：点击查看详情

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 小萌新—语音助手的环境自适应

即刻与 Magic Data 建立联系？