最新发布!查看 MagicData 成品数据集
语音复刻大模型高品质数据集——东南亚

语音复刻大模型高品质数据集——东南亚

语种

他加禄语-菲律宾,马来语-马来西亚,泰语-泰国

数据风格

对话式&朗读式

音频格式

PCM

采样率

48kHz

比特率

16 bits

声道

1

人数

5,232

时长

2,425

As a new trend of AIGC, zero-shot speech synthesis has wide-ranging applications, including voice assistants, audiobooks, video game character voices, creating podcast, and real-time voice changer, among others. Magic Data has proactively designed and developed the "High-Quality Dataset for Voice Replication," which boasts a 48kHz high sampling rate, tens of thousands of contributors with diverse content, making it an excellent resource for achieving zero-shot speech synthesis.

没有找到想要的数据?

联系我们

数据集推荐

MDT-AF069 英语双工自然对话数据集

当前,国内外科技界迎来了语音对话模型的繁荣时代,它不仅能够识别用户的语音,还能模拟出极为接近真人的语音回应。晴数智慧前瞻地推出了“双工自然对话语音数据集_英语”,不仅在技术层面上实现了突破,在应用层面上也为开发者提供了更大的自由度,此数据集包括5,000小时的多口音英文对话数据,涵盖了多样化的语音场景。同时,我们的双工对话数据通过对每位说话者语音的独立分析,AI模型能够更好地理解对话中的上下文变化、语调变化和情感变化,从而做出更自然、更准确的回应。
试听音频

MDT-AD037 上海话手机朗读音频数据集—日常用语

【开源数据】
试听音频

MDT-AG002 中文普通话对话音频数据集

试听音频

MDT-AE067 韩语双工自然对话数据集

基于独立音轨采集技术精准分离重叠语音与即兴打断,真实呈现韩语特有的敬语层级、情感性尾音变化和快速话轮转换。数据集包含多说话人角色标注与场景标签,助力AI掌握韩语文化语境下的复杂对话逻辑与情感分析。

MDT-AF074 中文普通话对话音频数据集

试听音频

MDT-RI001 中文高质量口语式语音数据集

该数据集专为训练更懂口语表达的AI模型打造,有利于提升中文语音识别的自然交互能力,覆盖多场景真实对话,由多样化人群录制,字准率高。所有语句完整保留口语韵律特征,精准标注的停顿与标点助力模型学习中文节奏,显著提升识别模型对自然发音的包容性与交互流畅度。

Magic Data 数据优势有哪些?

合规性

符合ISO/IEC 27001和ISO/IEC 27701:2019标准认证

多维度

音频、文本、图像、音视频多模态数据

覆盖性

涵盖多领域的对话式、朗读式及自发式数据

高精度

人机协同高精度标注

TOP
联系我们