公司
blog
Blog
blog
21
Aug
20
Browse: 50
北京爱数智慧新出德语、俄语、乌尔都语等对话数据集 语种覆盖欧亚大陆大部地区

图片来源:摄图网

随着人工智能技术的发展,人工智能市场不断扩大,很多AI企业拓展海外市场。AI产品首先要克服语言方面的障碍,比如AI产品能够识别和听懂某一地域的语言,并对说话人做出对方能听得懂的回应。

近期,北京爱数智慧针对AI产品出海企业推出一系列外语数据集,分别是乌尔都语、德语、俄语、巴基斯坦英语、埃及阿拉伯语五个语种数据集,涵盖对话和朗读两个方面,这些语言数据采集自欧洲和亚洲大部分地区。

对话式数据集

对话式AI是人工智能热门方向,也是目前最先落地的技术之一。对话式AI涉及到语音识别、自然语言理解、机器学习等人工智能技术,使机器理解人类语言并与人类进行有效沟通。对话式AI一般以文本机器人、语音机器人、多模态数字人、智能质检和坐席辅助等形式赋能于营销、客服、质检等场景。

图片来源:摄图网

例如在客服场景中,因真实客服对话随意性较大、口语较多、话题不易集中、存在省略语等现象,因此,在训练客服等用于对话场景的AI模型时,自由对话数据集显得尤为重要。北京爱数智慧近期新推出的数据以自由对话数据为主,分别是德语、俄语和埃及阿拉伯语自由对话数据,这些数据可帮助AI模型快速识别不同场景的对话内容并做出有效回应。

德语对话音频数据集

该数据为对话式数据,总共300多人参与录制,参与录制人来自德国北莱茵-威斯特法伦州、巴伐利亚、柏林、杜塞尔多夫、克罗伊茨贝格等大部分德语地区。录音内容为自由对话。该数据集可用于智慧出行、智能社交、智能家居控制等场景。

俄语对话音频数据集

该数据集总时长近1000小时,共有超过500人参与录制,参与录制人来自莫斯科、萨兰斯克等地,在安静室内环境下录制。音频内容为自由对话,适合对对话式AI的训练和测试。该数据集可应用于智能社交、智能家居等场景,用于训练智能音箱、语音助手等产品的AI模型。

埃及阿拉伯语对话音频数据集

该对话数据集总时长超过500小时,超过500名埃及国家阿拉伯语地区人参与录制,录制人覆盖各个年龄阶段。数据集适用于拓展埃及及其他人工智能市场的AI产品模型训练。该数据集可应用于智能社交、智能终端、智能家居等各大场景。

朗读式数据集

图片来源:摄图网

“小爱同学,请循环播放我的歌单前十首歌曲。” “唉,小爱为您循环播放我的歌单前十首歌曲,尽情享受吧!”

当我们和智能音箱交流时,音箱首先识别我们的声音,将声音转换成文本,理解人的意图获取答案后,再通过语音合成播报出来。或者我们登录某个应用工具,可通过语音输入密码来实现。 实在是太酷了,这些智能设备是怎么做到的?AI模型首先通过对海量语音、语言数据集进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”,这些是完成整个人机对话的前提。 因此,朗读数据是人工智能精准识别的重要组成部分,广泛应用在智能装备、智能音箱、语音助手等场景。北京爱数智慧近期新推出乌尔都语和巴基斯坦英语朗读式数据集,用于AI产品人机交互、控制命令等。

乌尔都语朗读音频数据集

乌尔都语是巴基斯坦国语,是印度斯坦语的一部分,印度斯坦语是世界第四大语言,近30个国家使用该语言,全球使用人口约1.4亿。 该朗读数据集超过500人参与采集,采集地域为巴基斯坦伊斯兰堡、辛德、卡拉奇等地。数据总时长超过450小时,内容为日常用语、人机交互、控制命令、唤醒词、数字串等。可应用在智能家居的智能音箱、智能出行的语音助手、智能穿戴等AI设备的模型训练与测试。

巴基斯坦英语朗读音频数据集

英语是巴基斯坦官方语言之一。巴基斯坦英语朗读数据共有近200人参与录制,参与录制人来自巴基斯坦伊斯兰堡、拉合尔、卡拉奇等区域。数据集内容多为日常用语、唤醒词、数字串等。该数据集可广泛应用于智能终端、智能社交、智能出行等多个领域。 朗读数据和对话数据都是用于提升模型识别语音的精准度,喂养的结构化、高质量的数据越多,模型在识别人声的准确度越高,反应敏捷度越好。 特别自由对话数据的训练,还原真实说话场景,可帮助模型提升复杂说话场景下的语音识别能力。 目前,北京爱数智慧为人工智能领域企业和科研机构提供海量数据集,拥有超过150000小时自有数据集,其中对话式数据集超过90000小时,朗读式数据集超过50000小时,自发式数据集超过10000小时。这些数据集可帮助厂商提升AI模型识别准确度,扩大人工智能的市场投放范围,推动人工智能产品的发展和普及。

Share
Previous
Page
喜讯 | Annotator® 5.0智能化标注平台斩获“2021企业数字化转型最佳产品奖”
Next
Page
技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021
Latest Blogs
喜讯 | Annotator® 5.0智能化标注平台斩获“2021企业数字化转型最佳产品奖”

爱数智慧Annotator® 5.0智能化标注平台凭借创新的技术、实用前瞻的功能和个性化的良好体验,从众多候选产品中脱颖而出,一举斩获“2021企业数字化转型最佳产品奖”。

21
Aug
20
技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021

CNCC2021【人机交互技术的机遇与挑战】技术论坛将于2021年10月28日13:00-16:00在深圳国际会展中心CC105B召开,本次论坛由CCF主办,爱数智慧赞助。

21
Aug
20
服贸会特别活动 | 爱数智慧自有数据集优惠3折起

爱数智慧20万小时自有数据集,涵盖30+语种,8大方言区方言的语音识别(ASR)和语音合成(TTS)数据集优惠3折起!

21
Aug
20
聚焦2021服贸会 | 爱数智慧正式上线Annotator® 5.0私有化部署版

Annotator® 5.0是北京爱数智慧为企业端和AI训练师为代表的用户端开发的一款智能化数据标注平台,平台分SaaS免费版和私有化部署版。

21
Aug
20
万元奖金等你拿 | 中文临床医学文本分词与命名实体挑战赛开启报名

本次NLP竞赛围绕中文临床医学文本内容,对医疗文本的分词和命名实体进行自然语言处理任务,以医疗问答为切入点,推动NLP技术创新,努力扩展到更多应用场景。

21
Aug
20
销售部
购买数据集或者获取数据采集/标注服务评估报价,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
销售部
购买Annotator5.0®私有化部署版,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
资源部
如果您想成为爱数智慧的数据采集和标注团队,请填写此表单。
承接数据采集项目
语种*
地区*
承接数据标注项目
语种*
联系信息
姓名*
公司名称*
邮箱地址*
电话*
项目案例*
地址*
提交
市场部
如果您想转载爱数智慧的文章或者告知我们展会信息,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
提交
人力资源部
如果您想要加入爱数智慧,成为团队的一员,请填写此表单。
姓名
*
邮箱地址
*
电话
*
职位
*
上传简历
提交
样例下载
姓名*
邮箱*
电话*
公司名称*
职位
部门
公司产品
我还对以下数据感兴趣
语种:
风格
场景

我们会进行电话回访,确认信息后将提供数据集下载方式。
提交
提交成功
我们的工作人员将尽快与您联系。
页面将在3秒后自动关闭
>
TOP