ASR&SD挑战赛正式打响基线系统和开发训练集发布

发布时间 : 2021-08-09 阅读量 : 3381

在数字经济快速发展的时代，数据成为生产要素，算力成为重要生产力，推动各大行业数字化转型和生产力变革。以数据、算法和算力“三驾马车”驱动的人工智能，正在改变基础学科和各个行业的创新模式。鼓励AI开发者积极创新，引领时代发展，是应对未来社会变革的必然要求。

由北京Magic Data、中科院声学所和江苏师范大学主办，MagicHub.io开源社区、上海白玉兰开源开放研究院、华为MindSpore社区、英特尔OpenVINO中文社区协办的“对话式AI语音识别及说话人识别（ASR&SD）挑战赛”自开展以来已经收到四十多个来自各大高校和企业参赛队伍注册报名。报名通道于8月6日关闭，主办方正式开启下一阶段的赛程，8与7日正式向参赛队伍开放开发训练集和基线系统。

开发训练集

主办方针对赛道一“对话场景下的语音识别（ASR）准确率”和赛道二“对话场景下的说话人识别（Speaker Diarization）准确率”开放了以下训练数据集： 1.160小时中文对话数据，主办方通过邮件形式将下载链接发送到参赛者邮箱，下载时间为8月7日~8月9日24时止，请参赛者及时查收和下载。 2.MagicData开源的755小时ASR中文朗读数据，请参赛者登录MagicHub.io开源社区并注册社区账号进行数据集下载，下载地址为：https://magichub.io/cn/datasets/mandarin-chinese-scripted-speech-corpus-daily-use-sentence-command-and-query-sms/ 3.此外，赛道二SD赛道允许使用两个开源数据集：[VoxCeleb Data (openslr-49)]，下载链接：http://www.openslr.org/49/和[CN-Celeb Corpus (openslr-82)] ，下载链接：http://www.openslr.org/82/供参赛者使用。

基线系统介绍

GitHub上基线系统教程

为了帮助参赛者快速、高质量完成模型开发和训练，主办方提供了基线系统，提供给参赛者使用。我们基于 kaldi 与 espnet 等开源工具与项目搭建了简易的基线系统，赛道一ASR 赛道的基线系统我们使用了端到端系统，用 Conformer 对北京Magic Data提供的160小时中文对话数据和开源的755小时ASR中文朗读数据进行了训练。赛道二SD赛道上，我们使用了 VBHMM-XVector 系统，训练时加入了 VoxCeleb 与 CN-Celeb 数据集，从而实现说话人特征的提取。详细的使用教程请见：https://github.com/MagicHub-io/Magic-Data-ASR-SD-Challenge

基线系统答疑指导

参赛者在比赛过程中，对基线系统有任何问题，可在以下链接中提交：https://github.com/MagicHub-io/Magic-Data-ASR-SD-Challenge/issues，将有专家团队给予解答。

竞赛主委会支持团队

参赛者在挑战赛中遇到相关问题，可通过发送邮件至ncmmsc16th@163.com邮箱，邮件标题为“ASR&SD挑战赛疑问”，由组委会的以下资深技术专家提供专业技术问答和指导：

竞赛主委会支持团队

指导专家们均是在语音界积累丰富的研究和实战经验，在他们的指导下，相信会给参赛者带来不少启发。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

ASR&SD挑战赛正式打响基线系统和开发训练集发布

即刻与 Magic Data 建立联系？