最新发布!查看 MagicData 成品数据集

新闻

press images

阿强严选 | 当AI遇到“方言英语” 该怎么破?

发布时间 : 2021-09-28     阅读量 : 699

大家好,阿强又和大家见面啦! 这一个月,我们给大家推荐了20万小时自有数据集,涵盖30+语种,这些数据集目前优惠3折起。但是很多人会问,这些数据集里都包含了哪些语种,特别英语是被问到最多的数据之一。

那么,今天阿强就为大家系统介绍英语对话/朗读/自发式数据集,以及这些数据集在各大场景的应用,这些英语数据集照例优惠3折起!

英语在世界各地的应用

图片来源:摄图网

英语是大家最不陌生的一种语言,同时也是目前学校唯一普及的一个语言。按照分布面积而言,英语是目前世界上最流行的语言,作为母语者数量是世界第三,使用人数为3.6亿以上,仅次于汉语和西班牙语。英语是世界上67个国家的官方语言,也是联合国、欧盟及许多国际组织的官方语言之一。 英语遍布世界各地和广泛的使用范围形成它的多中心语言风格,不可避免出现各种地区性变体,也就是出现了“方言”的情况,不同地区的英语发音和词汇都带有地域特色,除了英国英语外,还有北美英语、澳新英语、印度英语等。 对于普遍适用英语地区的人工智能产品来说,要具备识别不同口音的英语,而非单一的“英式英语”或者“美式英语”,还要像中文一样囊括众多的“方言”识别。目前,Magic Data拥有20000小时的英语数据集,包括对话式数据集、朗读式数据集和自发式数据集,可应用于智慧出行、智能社交、智慧金融、智能家居、智能终端等行业的各大应用场景。

英语朗读数据集 图片来源:摄图网

破解人工智能模型的英语“方言”识别率难题,要使用不同地域人的英语发音数据进行大量的训练。Magic Data采集了来自世界各地的英语国家语音数据,为人工智能行业输入高质量的英语语音数据。

美国英语朗读数据集

该数据集被采集人超过270人,来自北美纽约、康斯康涅、芝加哥、洛杉矶等地区。男女比例接近1:1,年龄涵盖少年、中青年到老年各个年龄阶段。录音内容为单个单词、日常用语,数据可用于智能客服、智能质检、智能音箱等AI模型训练。

印度英语朗读数据集

数据集采集自印度德里、米佐拉姆、奥里萨、新德里、艾扎威尔等大部地区,展现原汁原味的印度口音英语。参与录制人约270人,覆盖10~50岁年龄阶段的印度本地人。该数据集为日常用语,可用于智能家居、智能社交等行业,适用于物联网、智能音箱、智能社交软件等场景的语音识别。

澳大利亚英语朗读数据集 澳大利亚英语数据集采集自澳大利亚地区本地人,采集内容为澳大利亚人英语日常用语。数据集适用于智能音箱、智能审核、智能软件等各大场景。

除此之外,Magic Data英语数据集还包括马来西亚英语、菲律宾英语、香港英语、新加坡英语、中国英语、泰国英语等,数据量累计超过20000小时,通用性较高,适用于人工智能大部分行业和场景。

英语对话数据集

英语电话对话数据集

该数据集采集自英语地区,内容根据既定主题进行自由对话,对话涵盖日常生活、工作、个人兴趣、影视娱乐等,话题丰富广泛。该对话式数据可应用于智能客服、语音商务、消费级机器人等场景。

适用各大场景英语数据集

图片来源:摄图网

用于车载英语数据集

该数据集内容根据具体的车载场景进行录制,录制口音为中国英语——香港英语朗读,录音语料为人机交互和命令控制场景下的语音内容,主要应用于车载如智能座舱场景的语音识别。

用于客服英语数据集

该数据集录制人来自欧美地区,通过电话信道在安静室内进行录制,语音内容为客服对话,该客服对话包括常见问题的问答、特定客服场景话题交流等。主要用于金融、电商、汽车、社交等行业的人工智能客服的识别率提升。

用于多场景的中英混合数据集

现在中英文混杂现象开始普遍化,人们说中文时常常带有一两个英文单词,对于人机交互来说,识别多语言混杂现象是一项重要课题。AI模型也需要对应数据进行训练。 该中英文混合朗读数据集总时长超过700小时,采集自国内大部分地区,录音内容为人机交互和命令控制。该数据集适用于智能家居控制、车载智能座舱、语音审核等场景。 英语作为世界范围内应用最广的语言,其多“方言”、丰富的应用场景和多语言混杂等问题,给AI模型的识别率带来很大挑战。大量英语相关数据是提升识别率的必要条件,Magic Data提供的多种类型英语数据集,帮助客户持续迭代AI产品,不断扩大市场范围。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们