挑战赛 | ISCSLP 2022 CSSD 正式发布基线系统和开发训练集

发布时间 : 2022-07-25 阅读量 : 1873

2022年7月4日起，由中国科学院声学研究所、西北工业大学、新加坡A*STAR信息通信研究所、上海交通大学以及Magic Data (北京爱数智慧科技有限公司) 联合主办的 “ISCSLP2022对话短语音说话人日志挑战赛” (ISCSLP 2022 Conversational Short-phrase Speaker Diarization Challenge, CSSD) 自开展以来，已经收到四十多支国内外研究机构、大学及知名企业的参赛队伍注册报名，包括德国弗劳恩霍夫应用研究促进学会、微软亚洲研究院、日内瓦大学、德国奥格斯堡大学、中国科学技术大学、上海交通大学、西北工业大学、北京理工大学、DeepGram、百度、网易、喜马拉雅、特斯联等。2022年7月24日，主办方正式向参赛队伍开放开发训练集和基线系统。

报名持续进行中：magichub.com/join-competition

开发训练集

主办方针对赛道“对话短语音说话人日志（SD）准确率”开放了以下训练数据集：

1、MagicData-RAMC 包括351组多轮普通话对话，时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域，录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。

2、评估集（Test），将于9月8日开放。

所有参与者都应遵守以下规则：

DATA：只允许使用MagicData RAMC（openslr 123）、VoxCeleb Data（openslr 49）和CN-Celeb Corpus（openslr 82）。数据增强可以使用两个噪声数据集，即 MUSAN（openslr17), RIRNoise (openslr 28)。
严禁以任何形式使用测试集，包括但不限于使用测试数据集对模型进行微调或训练。

3.允许多系统融合。然而不鼓励使用具有相同结构的系统进行融合。

所有模型都应在允许的数据集上进行训练。具体来说，预训练模型不允许使用其他数据集（包括未标记的数据）。

5、最终解释权归主办方所有。

基线系统介绍

为了帮助参赛者快速、高质量完成模型开发和训练，主办方提供了基线系统，提供给参赛者使用。我们使用VBx系统作为我们的基线系统，该系统使用ResNet来进行说话人特征提取，使用AHC与VB-HMM 进行特征向量的聚类。

详细的使用教程请见：

https://github.com/MagicHub-io/MagicData-RAMC

打分工具介绍

为了评价说话人日志系统的性能，我们提出了Conversational-DER (CDER) 的指标。传统的DER 可以在时间尺度上评估说话人分类系统的整体性能。但是，在实际对话中，有时较短的持续时间包含重要信息，基于时间尺度的系统评价标准难以反映短时片段的识别性能。因此我们提出了CDER ，在句子级别评估说话人日志系统。

详细信息请见：

https://github.com/MagicHub-io/CDER_Metric

奖项设置

比赛分别设置一等奖、二等奖和三等奖，将评选出三组获奖团队/个人。一等奖团队/个人将获得OPPO Find系列手机一部（价值约5000元），同时，获奖者将有机会参加 ISCSLP 2022 会议进行报告分享。

基线系统答疑指导

对基线系统有任何疑问，请访问以下链接获取帮助，将有专家团队给予解答。

https://github.com/MagicHub-io/MagicData-RAMC#contents

竞赛主委会支持团队

挑战赛相关问题，请发送邮件至 open@magicdatatech.com，邮件标题为“ISCSLP CSSD挑战赛疑问”。

疑问将由以下组委会资深技术专家提供专业技术问答和指导。指导专家均在语音领域深耕多年，有着丰富研究和实战经验，相信参赛者们在他们的指导下能够得到启发与收获。

赛程设置

9月8日将发布评估集，请参赛者谨记比赛关键时间点，详情如下：

访问Magichub开源社区，获取更多数据集 https://www.magichub.com

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

挑战赛 | ISCSLP 2022 CSSD 正式发布基线系统和开发训练集

即刻与 Magic Data 建立联系？