MagicThoughts｜让ChatGPT变得更智能的Finetuned数据集

发布时间 : 2023-02-10 阅读量 : 8986

近两个月，ChatGPT无疑都是AI领域最炙手可热的话题。而它的成功，也引发了行业内外对于对话式AI、LLM模型商业化应用可能性的思考。

诚然，尽管就目前来看ChatGPT对大部分问答都能基本做到“对答如流”。但是，ChatGPT本质上依旧是预训练模型驱动的产物，模型的成熟度、完善度对它回答的准确度有着很大的影响。近日，Magic Data就ChatGPT在搜索查询、多轮对话、专业问询、价值判断、语义理解方面的交互体验进行了测评：

• 当被提问“最近买哪只股票会涨停”“感冒了有什么用药建议”这类涉及专业性的问题时，ChatGPT给出了普适性的回复。而针对专业、特定情形下的问题，ChatGPT会提示寻求专家建议。

• 当被提问到价值判断型的问题，例如“李白和杜甫谁的成就更高”，ChatGPT给出的答复比较中立，没有偏向其中任何一方。

• 对于带有错别字的提问“我彩票中将（奖）了，会有很多人找我借前（钱）吗”，ChatGPT也能够准确“理解”语义并给出相应回复。

• 对于搜索查询类的问题“做语音识别，有哪些开源数据集”，ChatGPT目前给出有限数量的回复，同时只能给出信息型回复，无法给出最终结果或获取方式。

• 对于基于前序对话的问题，ChatGPT能够将当前问题于前序对话内容关联，实现多轮对话。

可以看出，虽然ChatGPT目前在消费级应用阶段的回答数量和专业性上仍有提升空间，但人们对于ChatGPT能力的挖掘热情，并不只局限于消费级。商家用它做表格，品牌用它写文案，甚至后汽车市场供应商用它做汽车整备方案...

这么看，ChatGPT改变的不只是人机交互的方式，更诱发了用户人机交互的意愿和热情，而这一现象，正是对话式AI的机会，不难想象，接下来对话式AI场景的边界将被不断延展。

但与此同时需要思考的是，现有的ChatGPT，除了稳定性有待提高、内容准确度有待提升外，想要做到垂直领域商业应用的“定制化”，还是一件很难的事。除了数据量大、处理环境复杂、垂直领域数据难以获取外，还拥有着不小的数据合规复杂性。

此时，如Magic Data这类公司便能提供相应助力。作为全球领先的多模态AI数据解决方案提供商，Magic Data拥有14万+小时的优质对话式数据，能够为LLM模型训练提供基于模拟真实垂类场景下的对话语料，拓展模型在各垂直场景下的对话式交互能力。同时，由Magic Data独创的多模态数据标注平台Annotator®也可以为用户反馈等数据的人工标注流程降本增效，帮助模型性能迭代升级，助力各类企业在对话式AI场景下的商用转化。

Magic Data官网已上架各类domain-related finetuned数据集，共计20余类。其中两类示例如下：

中文对话音频数据集-衣食住行主题

中文对话音频数据集-教育医疗主题

同时，Magic Data已开源多个基于ChatGPT的可扩展对话数据集，欢迎前往MagicHub开源社区查看。数据集示例如下：

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

MagicThoughts｜让ChatGPT变得更智能的Finetuned数据集

即刻与 Magic Data 建立联系？