行业洞察 | 语音识别真的超过人耳朵了吗？

发布时间 : 2022-07-25 阅读量 : 1520

近年来，随着人工智能技术的发展，语音识别的性能得到显著的提升。很多公司对外宣称，语音识别技术的准确率已经达到98%以上，难道语音识别的效果真的超过人耳了吗？

当然不能下此结论。毕竟人脑才是世界上最精准的仪器。网上有句俗语说的很好，“离开测试集说准确率一如耍流氓”。当在安静环境下，识别准确率大概能到98%，但是当处于嘈杂环境，准确率就会迅速下降。

当处于一个派对上，语音识别机器很难从重叠的语音中拾取目标说话人的语音，更难以识别准确，这就是语音识别领域的经典问题——鸡尾酒会问题（Cooktail Party Problem）。在各种声音的混杂中，听到自己想注意的声音，是人类的本能。但是对于机器来说，这就是“一锅粥”，必须通过语音分离技术，先将目标语音分离出来，之后才能进行识别。

「基于神经网络的语音分离算法」

语音分离是语音识别中解决“鸡尾酒会”问题的第一步。在语音识别的前端加上语音分离技术，把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性。鸡尾酒会问题指的是采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

目前主流的语音分离算法是基于神经网络，神经网络的用途主要是学习一个理想二值掩蔽（Ideal Binary Mask，IBM），来决定频谱中的目标信号在哪些时频单元（Time-frequency Units）中做主导。如果把一个听觉信号在时间域和频率域两个维度（时频二维）进行表示，我们可以把时、频这两个维度表示成一个二维矩阵，这个矩阵中的每一个元素称为一个时频单元。如果对于目标信号不需要分得那么细，只需要分一次——属于目标声源，或是背景噪声，那么时频单元就可以量化为2个值，比如0和1，这便是二值。这样，从理想二值掩蔽的角度考虑，这个问题就变成了一个有监督学习（Supervised Learning）的分类问题。

「多模态融合的语音分离算法」

除了上述纯语音做语音分离，解决鸡尾酒会问题，近期还有不少文章以多模态的方法解决鸡尾酒会问题。谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本，通过约2000个小时的视频片段分析，训练出基于多流卷积神经网络（CNN）的模型，将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。实验中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者。

无论是多模态还是单模态的语音分离算法，都离不开对话语音数据的支撑，多个说话人对话语音数据采集经费高、标注困难。而Magic Data作为全球领先的AI数据服务提供商，能够为算法工程师们提供众多高质量的数据进行支撑，为解决鸡尾酒会问题提供实验机床。

噪音音频数据集：点击了解更多

家居噪音音频数据集：点击了解更多

车载噪音音频数据集：点击了解更多

Edward Colin Cherry在出版于1957年的On Human Communication一书中说道：“到目前为止，还没有哪个机器算法能够解决‘鸡尾酒会’问题。”没想到到目前为止，这句断言仍然没有被完全推翻。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 语音识别真的超过人耳朵了吗？

即刻与 Magic Data 建立联系？