Magic Data方言对话数据集让AI听懂你的乡音

发布时间 : 2020-11-27 阅读量 : 11248

有这么一个笑话，四川老太太在异地乘车，因人多被挤得直喊“孩子丢了”，大家纷纷帮她找孩子，最后她指着旁边的鞋子，大家恍然大悟，她找的是被挤丢的“鞋子”。

关于方言，中国俗话说“十里不同音，百里不同俗”，方言给跨地域沟通带来诸多不便，人与人沟通尚且如此，更何况基于语音识别的人工智能设备呢？

提升方言识别率有利于优化AI产品体验

随着智能音箱、智能客服为代表的智能语音市场的不断扩大，方言成为语音交互体验的一大障碍。受方言影响，很多人讲普通话也夹带方言特色。比如广州人用粤语问智能音箱“我要不要返工”（注：“返工”在粤语中指的是“上班”），音箱可能给出“如果感觉不够好，你可以再做一次”之类答非所问的对话。

智能语音设备要想进一步扩大市场，满足不同地域用户使用需求，AI模型需要大量的方言数据集。对于智能客服来说，AI掌握多种方言，能够帮助客服提升服务质量，实现机器人“无感化”体验；也能帮助智能家居设备提高方言识别能力，更加精准识别主人命令，从而完成相应的操作。

自然对话数据集让AI学习原汁原味的方言

对于这一需求，Magic Data针对多方言自然对话场景和朗读场景，采集和标注多种方言对话数据集和口语朗读式数据集。数据集产品覆盖七大方言，帮助AI模型有效提升语音识别准确性。

为最大限度提升AI模型对方言的识别准确率，Magic Data采集的对话数据来自自然、真实的对话场景，表达风格口语化，对话自然流畅。

大量方言口语朗读式数据集满足模型训练需求

Magic Data拥有超过一万小时的方言数据集储备量，除了方言自然对话数据集外，Magic Data还有方言口语式朗读数据集，方言数据集覆盖北方官话、吴语、湘语、赣语、闽语、粤语、客家话等七大方言，包括四川话、广东话、上海话、武汉话、长沙话、闽南话、郑州话、东北话等具体方言。

匹配发音词典助力模型高效训练

Magic Data的各个方言数据集，和一般语料库相比，除了音频和文本信息外，还包含了以下几个方面：

字词表：语言模型的核心点是基于方言语音的文本用字一致性，但因普通话和方言语音系统差异巨大，导致方言书写用字方面存在困难，Magic Data通过字词表为方言设定标准的用字体系，规范统一写法。

常用字词映射表（以上海话为例）

发音词典：为降低有限词汇（out ofvocabulary）对识别率的影响，Magic Data研发了自主知识产权的发音词典标注系统。发音词典词条和Magic DataASR数据集相匹配，并且覆盖字词在真实场景下的发音，包含了每个字单独发音，以及上下文中的真实发音包括变调信息等。方言发音词典包含超过10万条通用式词条，从而加快OOV问题的解决。

发音词典样例（以上海话为例）

平行语料：字词表和词典外，Magic Data方言口语朗读式数据集还提供平行语料，即方言文本对应的普通话文本。例如：上海话“吾明朝真呃有事体哎”，其对应的普通话文本为“我明天真的有事呢”等。

Magic Data官网样例含平行语料截图（以上海话为例）

数据集是破解语音识别中方言问题的关键。市场正在逐步重视方言识别，各大厂商也开始涉足这一领域。Magic Data提供丰富的方言数据集，帮助提升AI模型方言识别层面的准确度，扩大人工智能产品的市场投放范围，推动人工智能产品的发展和普及。

更多数据集欢迎咨询客服：400-900-5251，或者在官网进行了解。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

Magic Data方言对话数据集让AI听懂你的乡音

即刻与 Magic Data 建立联系？