公司
blog
Blog
blog
21
Sep
28
Browse: 34
阿强严选 | 当AI遇到“方言英语” 该怎么破?

大家好,阿强又和大家见面啦! 这一个月,我们给大家推荐了20万小时自有数据集,涵盖30+语种,这些数据集目前优惠3折起。但是很多人会问,这些数据集里都包含了哪些语种,特别英语是被问到最多的数据之一。

那么,今天阿强就为大家系统介绍英语对话/朗读/自发式数据集,以及这些数据集在各大场景的应用,这些英语数据集照例优惠3折起!

英语在世界各地的应用

图片来源:摄图网

英语是大家最不陌生的一种语言,同时也是目前学校唯一普及的一个语言。按照分布面积而言,英语是目前世界上最流行的语言,作为母语者数量是世界第三,使用人数为3.6亿以上,仅次于汉语和西班牙语。英语是世界上67个国家的官方语言,也是联合国、欧盟及许多国际组织的官方语言之一。 英语遍布世界各地和广泛的使用范围形成它的多中心语言风格,不可避免出现各种地区性变体,也就是出现了“方言”的情况,不同地区的英语发音和词汇都带有地域特色,除了英国英语外,还有北美英语、澳新英语、印度英语等。 对于普遍适用英语地区的人工智能产品来说,要具备识别不同口音的英语,而非单一的“英式英语”或者“美式英语”,还要像中文一样囊括众多的“方言”识别。目前,爱数智慧拥有20000小时的英语数据集,包括对话式数据集、朗读式数据集和自发式数据集,可应用于智慧出行、智能社交、智慧金融、智能家居、智能终端等行业的各大应用场景。

英语朗读数据集 图片来源:摄图网

破解人工智能模型的英语“方言”识别率难题,要使用不同地域人的英语发音数据进行大量的训练。爱数智慧采集了来自世界各地的英语国家语音数据,为人工智能行业输入高质量的英语语音数据。

美国英语朗读数据集

该数据集被采集人超过270人,来自北美纽约、康斯康涅、芝加哥、洛杉矶等地区。男女比例接近1:1,年龄涵盖少年、中青年到老年各个年龄阶段。录音内容为单个单词、日常用语,数据可用于智能客服、智能质检、智能音箱等AI模型训练。

印度英语朗读数据集

数据集采集自印度德里、米佐拉姆、奥里萨、新德里、艾扎威尔等大部地区,展现原汁原味的印度口音英语。参与录制人约270人,覆盖10~50岁年龄阶段的印度本地人。该数据集为日常用语,可用于智能家居、智能社交等行业,适用于物联网、智能音箱、智能社交软件等场景的语音识别。

澳大利亚英语朗读数据集 澳大利亚英语数据集采集自澳大利亚地区本地人,采集内容为澳大利亚人英语日常用语。数据集适用于智能音箱、智能审核、智能软件等各大场景。

除此之外,爱数智慧英语数据集还包括马来西亚英语、菲律宾英语、香港英语、新加坡英语、中国英语、泰国英语等,数据量累计超过20000小时,通用性较高,适用于人工智能大部分行业和场景。

英语对话数据集

英语电话对话数据集

该数据集采集自英语地区,内容根据既定主题进行自由对话,对话涵盖日常生活、工作、个人兴趣、影视娱乐等,话题丰富广泛。该对话式数据可应用于智能客服、语音商务、消费级机器人等场景。

适用各大场景英语数据集

图片来源:摄图网

用于车载英语数据集

该数据集内容根据具体的车载场景进行录制,录制口音为中国英语——香港英语朗读,录音语料为人机交互和命令控制场景下的语音内容,主要应用于车载如智能座舱场景的语音识别。

用于客服英语数据集

该数据集录制人来自欧美地区,通过电话信道在安静室内进行录制,语音内容为客服对话,该客服对话包括常见问题的问答、特定客服场景话题交流等。主要用于金融、电商、汽车、社交等行业的人工智能客服的识别率提升。

用于多场景的中英混合数据集

现在中英文混杂现象开始普遍化,人们说中文时常常带有一两个英文单词,对于人机交互来说,识别多语言混杂现象是一项重要课题。AI模型也需要对应数据进行训练。 该中英文混合朗读数据集总时长超过700小时,采集自国内大部分地区,录音内容为人机交互和命令控制。该数据集适用于智能家居控制、车载智能座舱、语音审核等场景。 英语作为世界范围内应用最广的语言,其多“方言”、丰富的应用场景和多语言混杂等问题,给AI模型的识别率带来很大挑战。大量英语相关数据是提升识别率的必要条件,爱数智慧提供的多种类型英语数据集,帮助客户持续迭代AI产品,不断扩大市场范围。

Share
Previous
Page
NCMMSC 2021 | 工业论坛大咖共话数据 爱数智慧CEO张晴晴论“当数据遇上开源”
Next
Page
NCMMSC 2021 | ASR&SD挑战赛圆满结束 参赛者论坛现场案例分享成绩亮眼
Popular Tags
Latest Blogs
NCMMSC 2021 | 工业论坛大咖共话数据 爱数智慧CEO张晴晴论“当数据遇上开源”

第十六届全国人机语音通讯学术会议(NCMMSC 2021)于10月15日~18日在徐州隆重召开,爱数智慧以金牌赞助商身份参与此次盛会,通过展位、主题分享、竞赛论坛等方式,为与会嘉宾带来爱数智慧的数据产品、标注工具和技术成果。

21
Sep
28
NCMMSC 2021 | ASR&SD挑战赛圆满结束 参赛者论坛现场案例分享成绩亮眼

由爱数智慧、中科院声学所和江苏师范大学主办,MagicHub.com开源社区、上海白玉兰开源开放研究院、华为MindSpore社区、英特尔OpenVINO中文社区协办的“对话式AI语音识别及说话人识别(ASR&SD)挑战赛”顺利闭幕,并在10月16日的2021年第十六届全国人机语音通讯学术会议(NCMMSC 2021)大会现场举行竞赛案例分享和颁奖仪式。

21
Sep
28
小爱5岁啦!一路走来,有AI有你 ,这份大礼请收下!

爱数智慧五周年庆

21
Sep
28
爱数智慧CEO张晴晴:“情感”人机交互,要从底层数据开始

“人类与虚拟世界之间的连接与沟通,必然要通过人机交互技术来完成,其实我们所做的事情最终会在元宇宙中体现出来,也会成为元宇宙基础设施建设的重要一环。” 在CNCC大会前AI科技评论的专访中,张晴晴说道。

21
Sep
28
智能座舱峰会 | 爱数智慧张涛:让人机交互更智能、更人性、更个性

9月27日,2021第三届中国汽车智能座舱国际峰会在上海举办。爱数智慧作为大会赞助方参与此次峰会,爱数智慧合伙人兼销售副总裁张涛现场发表《让人机交互更智能、更人性、更个性》的主题演讲

21
Sep
28
销售部
购买数据集或者获取数据采集/标注服务评估报价,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
销售部
购买Annotator5.0®私有化部署版,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
资源部
如果您想成为爱数智慧的数据采集和标注团队,请填写此表单。
承接数据采集项目
语种*
地区*
承接数据标注项目
语种*
联系信息
姓名*
公司名称*
邮箱地址*
电话*
项目案例*
地址*
提交
市场部
如果您想转载爱数智慧的文章或者告知我们展会信息,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
提交
人力资源部
如果您想要加入爱数智慧,成为团队的一员,请填写此表单。
姓名
*
邮箱地址
*
电话
*
职位
*
上传简历
提交
样例下载
姓名*
邮箱*
电话*
公司名称*
职位
部门
公司产品
我还对以下数据感兴趣
语种:
风格
场景

我们会进行电话回访,确认信息后将提供数据集下载方式。
提交
提交成功
我们的工作人员将尽快与您联系。
页面将在3秒后自动关闭
>
TOP