北京Magic Data新出德语、俄语、乌尔都语等对话数据集语种覆盖欧亚大陆大部地区

发布时间 : 2021-08-20 阅读量 : 1963

图片来源：摄图网

随着人工智能技术的发展，人工智能市场不断扩大，很多AI企业拓展海外市场。AI产品首先要克服语言方面的障碍，比如AI产品能够识别和听懂某一地域的语言，并对说话人做出对方能听得懂的回应。

近期，北京Magic Data针对AI产品出海企业推出一系列外语数据集，分别是乌尔都语、德语、俄语、巴基斯坦英语、埃及阿拉伯语五个语种数据集，涵盖对话和朗读两个方面，这些语言数据采集自欧洲和亚洲大部分地区。

对话式数据集

对话式AI是人工智能热门方向，也是目前最先落地的技术之一。对话式AI涉及到语音识别、自然语言理解、机器学习等人工智能技术，使机器理解人类语言并与人类进行有效沟通。对话式AI一般以文本机器人、语音机器人、多模态数字人、智能质检和坐席辅助等形式赋能于营销、客服、质检等场景。

图片来源：摄图网

例如在客服场景中，因真实客服对话随意性较大、口语较多、话题不易集中、存在省略语等现象，因此，在训练客服等用于对话场景的AI模型时，自由对话数据集显得尤为重要。北京Magic Data近期新推出的数据以自由对话数据为主，分别是德语、俄语和埃及阿拉伯语自由对话数据，这些数据可帮助AI模型快速识别不同场景的对话内容并做出有效回应。

德语对话音频数据集

该数据为对话式数据，总共300多人参与录制，参与录制人来自德国北莱茵-威斯特法伦州、巴伐利亚、柏林、杜塞尔多夫、克罗伊茨贝格等大部分德语地区。录音内容为自由对话。该数据集可用于智慧出行、智能社交、智能家居控制等场景。

俄语对话音频数据集

该数据集总时长近1000小时，共有超过500人参与录制，参与录制人来自莫斯科、萨兰斯克等地，在安静室内环境下录制。音频内容为自由对话，适合对对话式AI的训练和测试。该数据集可应用于智能社交、智能家居等场景，用于训练智能音箱、语音助手等产品的AI模型。

埃及阿拉伯语对话音频数据集

该对话数据集总时长超过500小时，超过500名埃及国家阿拉伯语地区人参与录制，录制人覆盖各个年龄阶段。数据集适用于拓展埃及及其他人工智能市场的AI产品模型训练。该数据集可应用于智能社交、智能终端、智能家居等各大场景。

朗读式数据集

图片来源：摄图网

“小爱同学，请循环播放我的歌单前十首歌曲。” “唉，小爱为您循环播放我的歌单前十首歌曲，尽情享受吧！”

当我们和智能音箱交流时，音箱首先识别我们的声音，将声音转换成文本，理解人的意图获取答案后，再通过语音合成播报出来。或者我们登录某个应用工具，可通过语音输入密码来实现。实在是太酷了，这些智能设备是怎么做到的？AI模型首先通过对海量语音、语言数据集进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”，这些是完成整个人机对话的前提。因此，朗读数据是人工智能精准识别的重要组成部分，广泛应用在智能装备、智能音箱、语音助手等场景。北京Magic Data近期新推出乌尔都语和巴基斯坦英语朗读式数据集，用于AI产品人机交互、控制命令等。

乌尔都语朗读音频数据集

乌尔都语是巴基斯坦国语，是印度斯坦语的一部分，印度斯坦语是世界第四大语言，近30个国家使用该语言，全球使用人口约1.4亿。该朗读数据集超过500人参与采集，采集地域为巴基斯坦伊斯兰堡、辛德、卡拉奇等地。数据总时长超过450小时，内容为日常用语、人机交互、控制命令、唤醒词、数字串等。可应用在智能家居的智能音箱、智能出行的语音助手、智能穿戴等AI设备的模型训练与测试。

巴基斯坦英语朗读音频数据集

英语是巴基斯坦官方语言之一。巴基斯坦英语朗读数据共有近200人参与录制，参与录制人来自巴基斯坦伊斯兰堡、拉合尔、卡拉奇等区域。数据集内容多为日常用语、唤醒词、数字串等。该数据集可广泛应用于智能终端、智能社交、智能出行等多个领域。朗读数据和对话数据都是用于提升模型识别语音的精准度，喂养的结构化、高质量的数据越多，模型在识别人声的准确度越高，反应敏捷度越好。特别自由对话数据的训练，还原真实说话场景，可帮助模型提升复杂说话场景下的语音识别能力。目前，北京Magic Data为人工智能领域企业和科研机构提供海量数据集，拥有超过150000小时自有数据集，其中对话式数据集超过90000小时，朗读式数据集超过50000小时，自发式数据集超过10000小时。这些数据集可帮助厂商提升AI模型识别准确度，扩大人工智能的市场投放范围，推动人工智能产品的发展和普及。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

北京Magic Data新出德语、俄语、乌尔都语等对话数据集语种覆盖欧亚大陆大部地区

即刻与 Magic Data 建立联系？