公司
Blog
blog
20
Nov
27
Browse: 179
爱数智慧方言对话数据集 让AI听懂你的乡音

有这么一个笑话,四川老太太在异地乘车,因人多被挤得直喊“孩子丢了”,大家纷纷帮她找孩子,最后她指着旁边的鞋子,大家恍然大悟,她找的是被挤丢的“鞋子”。

关于方言,中国俗话说“十里不同音,百里不同俗”,方言给跨地域沟通带来诸多不便,人与人沟通尚且如此,更何况基于语音识别的人工智能设备呢?

提升方言识别率 有利于优化AI产品体验

随着智能音箱、智能客服为代表的智能语音市场的不断扩大,方言成为语音交互体验的一大障碍。受方言影响,很多人讲普通话也夹带方言特色。比如广州人用粤语问智能音箱“我要不要返工”(注:“返工”在粤语中指的是“上班”),音箱可能给出“如果感觉不够好,你可以再做一次”之类答非所问的对话。

智能语音设备要想进一步扩大市场,满足不同地域用户使用需求,AI模型需要大量的方言数据集。对于智能客服来说,AI掌握多种方言,能够帮助客服提升服务质量,实现机器人“无感化”体验;也能帮助智能家居设备提高方言识别能力,更加精准识别主人命令,从而完成相应的操作。

自然对话数据集让AI学习原汁原味的方言

对于这一需求,爱数智慧针对多方言自然对话场景和朗读场景,采集和标注多种方言对话数据集和口语朗读式数据集。数据集产品覆盖七大方言,帮助AI模型有效提升语音识别准确性。

为最大限度提升AI模型对方言的识别准确率,爱数智慧采集的对话数据来自自然、真实的对话场景,表达风格口语化,对话自然流畅。

大量方言口语朗读式数据集 满足模型训练需求

爱数智慧拥有超过一万小时的方言数据集储备量,除了方言自然对话数据集外,爱数智慧还有方言口语式朗读数据集,方言数据集覆盖北方官话、吴语、湘语、赣语、闽语、粤语、客家话等七大方言,包括四川话、广东话、上海话、武汉话、长沙话、闽南话、郑州话、东北话等具体方言。

匹配发音词典助力模型高效训练

爱数智慧的各个方言数据集,和一般语料库相比,除了音频和文本信息外,还包含了以下几个方面:

字词表:语言模型的核心点是基于方言语音的文本用字一致性,但因普通话和方言语音系统差异巨大,导致方言书写用字方面存在困难,爱数智慧通过字词表为方言设定标准的用字体系,规范统一写法。

常用字词映射表(以上海话为例)

发音词典:为降低有限词汇(out ofvocabulary)对识别率的影响,爱数智慧研发了自主知识产权的发音词典标注系统。发音词典词条和爱数智慧ASR数据集相匹配,并且覆盖字词在真实场景下的发音,包含了每个字单独发音,以及上下文中的真实发音包括变调信息等。方言发音词典包含超过10万条通用式词条,从而加快OOV问题的解决。

发音词典样例(以上海话为例)

平行语料:字词表和词典外,爱数智慧方言口语朗读式数据集还提供平行语料,即方言文本对应的普通话文本。例如:上海话“吾明朝真呃有事体哎”,其对应的普通话文本为“我明天真的有事呢”等。

爱数智慧官网样例含平行语料截图(以上海话为例)

数据集是破解语音识别中方言问题的关键。市场正在逐步重视方言识别,各大厂商也开始涉足这一领域。爱数智慧提供丰富的方言数据集,帮助提升AI模型方言识别层面的准确度,扩大人工智能产品的市场投放范围,推动人工智能产品的发展和普及。

更多数据集欢迎咨询客服:400-900-5251,或者在官网进行了解。

Share
Previous
Page
爱数智慧荣获艾媒咨询“2020年度最佳人工智能平台”大奖
Next
Page
爱数智慧受邀参加FiNEXT峰会 语音数据产品赋能保险数字化未来
Latest Blogs
爱数智慧荣获艾媒咨询“2020年度最佳人工智能平台”大奖

2020年1月19日,由全球知名第三方数据分析机构艾媒咨询集团(iiMedia Research Group)开展的“2020新经济行业年度巅峰榜”获奖名单在“2020新经济行业年度巅峰榜颁奖典礼”上重磅揭晓。在本次评选中,爱数智慧夺得“2020年度最佳人工智能平台”大奖。

20
Nov
27
爱数智慧受邀参加FiNEXT峰会 语音数据产品赋能保险数字化未来

爱数智慧作为专业的AI数据产品企业受邀参加FiNEXT: Digital保险科技数字化峰会,现场展位引发嘉宾关注和咨询。

20
Nov
27
爱数智慧推出方言TTS数据 AI也能飚出“土味儿情话”
20
Nov
27
爱数智慧最新广告片出炉 数据成就AI之美

爱数智慧拍了一个不同寻常的“AI成长史”。

20
Nov
27
直播回顾 | 爱数智慧成功开展INTERSPEECH2020 国际线上会议

邀请了语音识别开源工具Kaldi之父Daniel Povey作为直播嘉宾,视频回顾。

20
Nov
27
销售部
购买数据集或者获取数据采集/标注服务评估报价,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
资源部
如果您想成为爱数智慧的数据采集和标注团队,请填写此表单。
承接数据采集项目
语种*
地区*
承接数据标注项目
语种*
联系信息
姓名*
公司名称*
邮箱地址*
电话*
项目案例*
地址*
提交
市场部
如果您想转载爱数智慧的文章或者告知我们展会信息,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
提交
人力资源部
如果您想要加入爱数智慧,成为团队的一员,请填写此表单。
姓名
*
邮箱地址
*
电话
*
职位
*
上传简历
提交
样例下载
姓名*
邮箱*
电话*
公司名称*
职位
部门
公司产品
我还对以下数据感兴趣
语种:
风格
场景

我们会进行电话回访,确认信息后将提供数据集下载方式。
提交
提交成功
我们的工作人员将尽快与您联系。
页面将在3秒后自动关闭
>
TOP