晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

发布时间 : 2023-08-03 阅读量 : 2116

两周前Meta发布了开源大模型LLaMA 2。与上一代LLaMA相比，LLaMA 2有着性能接近GPT-3.5、允许商用、安全性更强，巨头联合生态开源的特点。LLaMA 2的开源使得大模型的竞争来到新的起点，市场格局面临重塑。如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

数据质量是AI大模型落地的决胜关键

在模型相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果的模型优化方式被越来越多业内人士所认同。人工智能领域的权威学者吴恩达发起了“以数据为中心的 AI”运动就是主张模型不变，通过改进数据集质量提升模型效果。在当前算力和算法难以拉开巨大差距的情况下，突破数据瓶颈、获取更多高质量的数据成为大模型落地的关键。

来源：Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023

晴数智慧推出高质量MagicData-CLAM数据集

在中文高质量数据集稀缺的情境下，晴数智慧基于近20年在对话数据的专业积累，在国内首次推出了面向大模型SFT训练的高质量数据集：MagicData-CLAM数据集。

该数据集包含一共5万条Prompt和对应回答，数据的分布由晴数智慧数据专家团队设计完成，覆盖领域多样性、任务多样性，以及表达多样性。数据版权完整清晰。

MagicData-CLAM帮助实现更优的大模型微调结果

为了更好地评估MagicData-CLAM的价值，晴数智慧研发团队进行了一组实验：基于chinese-llama-2-7b模型（该模型由开源项目 Linly 发布，是基于chinese-LLaMA2-7b训练的中文底座模型），团队分别使用约等量的MagicData-CLAM数据集和基于斯坦福Alpaca数据处理的高质量中文数据集进行微调，得到Chinese-llama2-CLAM（简称CLAM）大模型和Chinese-llama2-alpaca（简称Alpaca）模型。我们对这两个模型以及基础chinese-llama-2-7b模型（基线模型）的输出结果进行评估。结果显示，从大模型的表达自然度上，结果输出结构化上，CLAM显著更优；在输出知识的正确性上CLAM也表现不错。

测评样例如下：

对比模型输出的结果，我们发现：

CLAM模型相比Alpaca模型，对中文的理解更好，结果输出上结构化更清晰。
Alpaca模型似乎容易先续写几句任务然后才开始进行回答，交互自然度稍有欠缺，而CLAM模型几乎未出现这种情况。
Alpaca模型偶尔出现幻觉，如它的输出结果有如此描述：经典的歌剧作品包括《托斯卡》、《费加罗的婚礼》、《魔笛》等，京剧作品如《茶馆》、《空城计》、《雷雨》等。（《茶馆》与《雷雨》并非京剧作品。）而在相关知识输出中，CLAM模型较好地理解了歌剧，京剧等的区别，并输出更合理的知识。

此实验结果说明，调优数据集对基线模型的输出结果有明显影响，使用更高质量的数据集，模型能输出更优的结果；Alpaca数据集是斯坦福大学研究团队发布的高质量数据集代表，而CLAM模型的输出结果优于Alpaca中文版模型，说明晴数智慧自研的MagicData-CLAM数据集是优质的中文高质量数据集。

通过电话：400-900-5251或邮箱：business@magicdatatech.com，联系我们的数据专家，了解更多数据集详情。

我们也将CLAM数据集Finetuning后的大模型进行了开源，发布在了huggingface开源社区上。欢迎更多的伙伴访问、体验、反馈。

获取CLAM开源模型：

https://huggingface.co/MagicHub/clam-7b/tree/main

一场不同以往的新的竞争正在生成式人工智能领域展开，高质量数据在其中将成为越来越关键的因素。MagicData-CLAM数据集作为晴数智慧在国内首发的合规可商用高质量SFT数据集，希望能帮助国内大模型应用研发伙伴先人一步，占领制胜先机。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧创始人兼CEO张晴晴博士当选开放群岛开源社区首席数据科学家

7月6日，工业互联网一体化进园区“百城千园行”（深圳宝安）——数据要素赋能先进制造业大会暨第六届工业互联网数据创新应用大赛颁奖活动在深圳宝安成功举办。本次活动由广东省工业和信息化厅指导，中国信息通信研究院联合深圳市宝安区人民政府、深圳数据交易所、深圳市创新投资集团共同主办。晴数智慧创始人兼CEO张晴晴博士受邀参加此次活动。

新闻

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

数据质量是AI大模型落地的决胜关键

晴数智慧推出高质量MagicData-CLAM数据集

MagicData-CLAM帮助实现更优的大模型微调结果

即刻与 Magic Data 建立联系？