最新发布!查看 MagicData 成品数据集

新闻

press images

勇立潮头!高品质SFT语音数据实现Zero-Shot语音复刻大模型

发布时间 : 2023-09-22     阅读量 : 921

文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音,有不少机构及企业都进行了相关项目的研究,包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)还有Meta今年发布的Voicebox(https://voicebox.metademolab.com/),都是利用大数据、大模型和零样本(zero-shot)合成技术,实现语音合成的音色、韵律、风格的多样性的代表。

语音TTS已经走向了AIGC大模型模式,利用大规模预训练数据,加上高品质的SFT数据,实现zero-shot的声音复刻正成为越来越火热的技术趋势。同时零样本语音合成在娱乐产业、云平台、通用AI平台及AIGC领域都有广泛的应用场景,包括电影电视配音及解说、有声书、游戏角色配音、虚拟主播、语音导航等。

在此背景下,晴数智慧前瞻性地推出“高品质语音大模型SFT数据集”,此数据具备48KHz高采样率,采集人数上万,环境纯净,内容自然多样,近万小时,是语音SFT的绝佳数据。

数据集参数:

话题分布:涉及休闲娱乐等15个话题

说话人信息:为保证语音的多样性,此数据集由来自中国各方言地区超3万人参与录制,男女近似比1:1,以中青年为主,地域分布广泛。

说话人男女比

说话人年龄分布

说话人地域分布

此数据已被数家娱乐产业头部企业运用于AIGC语音合成研发及应用,数据质量经过实践检验。更多数据详情,资讯我们的数据专家。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们