阿强严选 | 当AI遇到“方言英语” 该怎么破？

发布时间 : 2021-09-28 阅读量 : 3065

大家好，阿强又和大家见面啦！这一个月，我们给大家推荐了20万小时自有数据集，涵盖30+语种，这些数据集目前优惠3折起。但是很多人会问，这些数据集里都包含了哪些语种，特别英语是被问到最多的数据之一。

那么，今天阿强就为大家系统介绍英语对话/朗读/自发式数据集，以及这些数据集在各大场景的应用，这些英语数据集照例优惠3折起！

英语在世界各地的应用

图片来源：摄图网

英语是大家最不陌生的一种语言，同时也是目前学校唯一普及的一个语言。按照分布面积而言，英语是目前世界上最流行的语言，作为母语者数量是世界第三，使用人数为3.6亿以上，仅次于汉语和西班牙语。英语是世界上67个国家的官方语言，也是联合国、欧盟及许多国际组织的官方语言之一。英语遍布世界各地和广泛的使用范围形成它的多中心语言风格，不可避免出现各种地区性变体，也就是出现了“方言”的情况，不同地区的英语发音和词汇都带有地域特色，除了英国英语外，还有北美英语、澳新英语、印度英语等。对于普遍适用英语地区的人工智能产品来说，要具备识别不同口音的英语，而非单一的“英式英语”或者“美式英语”，还要像中文一样囊括众多的“方言”识别。目前，Magic Data拥有20000小时的英语数据集，包括对话式数据集、朗读式数据集和自发式数据集，可应用于智慧出行、智能社交、智慧金融、智能家居、智能终端等行业的各大应用场景。

英语朗读数据集 图片来源：摄图网

破解人工智能模型的英语“方言”识别率难题，要使用不同地域人的英语发音数据进行大量的训练。Magic Data采集了来自世界各地的英语国家语音数据，为人工智能行业输入高质量的英语语音数据。

美国英语朗读数据集

该数据集被采集人超过270人，来自北美纽约、康斯康涅、芝加哥、洛杉矶等地区。男女比例接近1:1，年龄涵盖少年、中青年到老年各个年龄阶段。录音内容为单个单词、日常用语，数据可用于智能客服、智能质检、智能音箱等AI模型训练。

印度英语朗读数据集

数据集采集自印度德里、米佐拉姆、奥里萨、新德里、艾扎威尔等大部地区，展现原汁原味的印度口音英语。参与录制人约270人，覆盖10~50岁年龄阶段的印度本地人。该数据集为日常用语，可用于智能家居、智能社交等行业，适用于物联网、智能音箱、智能社交软件等场景的语音识别。

澳大利亚英语朗读数据集澳大利亚英语数据集采集自澳大利亚地区本地人，采集内容为澳大利亚人英语日常用语。数据集适用于智能音箱、智能审核、智能软件等各大场景。

除此之外，Magic Data英语数据集还包括马来西亚英语、菲律宾英语、香港英语、新加坡英语、中国英语、泰国英语等，数据量累计超过20000小时，通用性较高，适用于人工智能大部分行业和场景。

英语对话数据集

英语电话对话数据集

该数据集采集自英语地区，内容根据既定主题进行自由对话，对话涵盖日常生活、工作、个人兴趣、影视娱乐等，话题丰富广泛。该对话式数据可应用于智能客服、语音商务、消费级机器人等场景。

适用各大场景英语数据集

图片来源：摄图网

用于车载英语数据集

该数据集内容根据具体的车载场景进行录制，录制口音为中国英语——香港英语朗读，录音语料为人机交互和命令控制场景下的语音内容，主要应用于车载如智能座舱场景的语音识别。

用于客服英语数据集

该数据集录制人来自欧美地区，通过电话信道在安静室内进行录制，语音内容为客服对话，该客服对话包括常见问题的问答、特定客服场景话题交流等。主要用于金融、电商、汽车、社交等行业的人工智能客服的识别率提升。

用于多场景的中英混合数据集

现在中英文混杂现象开始普遍化，人们说中文时常常带有一两个英文单词，对于人机交互来说，识别多语言混杂现象是一项重要课题。AI模型也需要对应数据进行训练。该中英文混合朗读数据集总时长超过700小时，采集自国内大部分地区，录音内容为人机交互和命令控制。该数据集适用于智能家居控制、车载智能座舱、语音审核等场景。英语作为世界范围内应用最广的语言，其多“方言”、丰富的应用场景和多语言混杂等问题，给AI模型的识别率带来很大挑战。大量英语相关数据是提升识别率的必要条件，Magic Data提供的多种类型英语数据集，帮助客户持续迭代AI产品，不断扩大市场范围。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

阿强严选 | 当AI遇到“方言英语” 该怎么破？

即刻与 Magic Data 建立联系？