北京Magic Data新出德语、俄语、乌尔都语等对话数据集 语种覆盖欧亚大陆大部地区
发布时间 : 2021-08-20 阅读量 : 932
图片来源:摄图网
随着人工智能技术的发展,人工智能市场不断扩大,很多AI企业拓展海外市场。AI产品首先要克服语言方面的障碍,比如AI产品能够识别和听懂某一地域的语言,并对说话人做出对方能听得懂的回应。
近期,北京Magic Data针对AI产品出海企业推出一系列外语数据集,分别是乌尔都语、德语、俄语、巴基斯坦英语、埃及阿拉伯语五个语种数据集,涵盖对话和朗读两个方面,这些语言数据采集自欧洲和亚洲大部分地区。
对话式数据集
对话式AI是人工智能热门方向,也是目前最先落地的技术之一。对话式AI涉及到语音识别、自然语言理解、机器学习等人工智能技术,使机器理解人类语言并与人类进行有效沟通。对话式AI一般以文本机器人、语音机器人、多模态数字人、智能质检和坐席辅助等形式赋能于营销、客服、质检等场景。
图片来源:摄图网
例如在客服场景中,因真实客服对话随意性较大、口语较多、话题不易集中、存在省略语等现象,因此,在训练客服等用于对话场景的AI模型时,自由对话数据集显得尤为重要。北京Magic Data近期新推出的数据以自由对话数据为主,分别是德语、俄语和埃及阿拉伯语自由对话数据,这些数据可帮助AI模型快速识别不同场景的对话内容并做出有效回应。
德语对话音频数据集
该数据为对话式数据,总共300多人参与录制,参与录制人来自德国北莱茵-威斯特法伦州、巴伐利亚、柏林、杜塞尔多夫、克罗伊茨贝格等大部分德语地区。录音内容为自由对话。该数据集可用于智慧出行、智能社交、智能家居控制等场景。
俄语对话音频数据集
该数据集总时长近1000小时,共有超过500人参与录制,参与录制人来自莫斯科、萨兰斯克等地,在安静室内环境下录制。音频内容为自由对话,适合对对话式AI的训练和测试。该数据集可应用于智能社交、智能家居等场景,用于训练智能音箱、语音助手等产品的AI模型。
埃及阿拉伯语对话音频数据集
该对话数据集总时长超过500小时,超过500名埃及国家阿拉伯语地区人参与录制,录制人覆盖各个年龄阶段。数据集适用于拓展埃及及其他人工智能市场的AI产品模型训练。该数据集可应用于智能社交、智能终端、智能家居等各大场景。
朗读式数据集
图片来源:摄图网
“小爱同学,请循环播放我的歌单前十首歌曲。” “唉,小爱为您循环播放我的歌单前十首歌曲,尽情享受吧!”
当我们和智能音箱交流时,音箱首先识别我们的声音,将声音转换成文本,理解人的意图获取答案后,再通过语音合成播报出来。或者我们登录某个应用工具,可通过语音输入密码来实现。 实在是太酷了,这些智能设备是怎么做到的?AI模型首先通过对海量语音、语言数据集进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”,这些是完成整个人机对话的前提。 因此,朗读数据是人工智能精准识别的重要组成部分,广泛应用在智能装备、智能音箱、语音助手等场景。北京Magic Data近期新推出乌尔都语和巴基斯坦英语朗读式数据集,用于AI产品人机交互、控制命令等。
乌尔都语朗读音频数据集
乌尔都语是巴基斯坦国语,是印度斯坦语的一部分,印度斯坦语是世界第四大语言,近30个国家使用该语言,全球使用人口约1.4亿。 该朗读数据集超过500人参与采集,采集地域为巴基斯坦伊斯兰堡、辛德、卡拉奇等地。数据总时长超过450小时,内容为日常用语、人机交互、控制命令、唤醒词、数字串等。可应用在智能家居的智能音箱、智能出行的语音助手、智能穿戴等AI设备的模型训练与测试。
巴基斯坦英语朗读音频数据集
英语是巴基斯坦官方语言之一。巴基斯坦英语朗读数据共有近200人参与录制,参与录制人来自巴基斯坦伊斯兰堡、拉合尔、卡拉奇等区域。数据集内容多为日常用语、唤醒词、数字串等。该数据集可广泛应用于智能终端、智能社交、智能出行等多个领域。 朗读数据和对话数据都是用于提升模型识别语音的精准度,喂养的结构化、高质量的数据越多,模型在识别人声的准确度越高,反应敏捷度越好。 特别自由对话数据的训练,还原真实说话场景,可帮助模型提升复杂说话场景下的语音识别能力。 目前,北京Magic Data为人工智能领域企业和科研机构提供海量数据集,拥有超过150000小时自有数据集,其中对话式数据集超过90000小时,朗读式数据集超过50000小时,自发式数据集超过10000小时。这些数据集可帮助厂商提升AI模型识别准确度,扩大人工智能的市场投放范围,推动人工智能产品的发展和普及。