“Training data is technology” .
数据即科技,OpenAI的联合创始人Ilya Sutskever在与知名科技媒体The Verge访谈中提到。ChatGPT自发布以来热度席卷全球,一周前惊艳亮相的GPT-4更是让人感叹我们迎来了AI发展的历史性时刻。
然而我们也困惑,OpenAI为何不开源GPT-4?在我们看来,更多的奥秘或许存在于数据之中......
本文是Magic Data创始人兼CEO张晴晴博士关于数据、大模型与生成式AI的观点分享。
尽管就目前来看ChatGPT对大部分问答都能基本做到“对答如流”。但是,ChatGPT本质上依旧是预训练模型驱动的产物,模型的成熟度、完善度对它回答的准确度有着很大的影响。
在过去的一月里,人工智能领域中最火的话题莫过"ChatGPT"。MagicHub数据开源社区已开源部分基于ChatGPT的可扩展的对话数据集。
Magic Data联合中科院声学研究所、上海交通大学和西北工业大学,在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC。MagicData-RAMC是一批高质量且标注丰富的训练数据,可以很好地支持开发者完成语音识别和说话人日志相关的研究。
数字化时代,传统的会议解决方案已经无法满足高效协同需求,企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作解决方案企业,其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。
一直以来,Magic Data致力于提供一站式AI数据解决方案,以3+1(数据咨询服务、数据集、定制化采标服务+智能化数据采标平台)模式助力各类行业、各类场景下客户的AI智能化项目落地。
ChatGPT在全球掀起的浪潮,除了向世界证明对话式AI商用化的可能性,也为越来越多企业落地对话式AI商用提供了重要抓手。
12月1日,埃隆斯克在加州召开了一场发布会,正式公布旗下脑机接口公司Neuralink的最新技术进展,马斯克不仅展示了猴子意念打字,还计划在六个月内开始人体试验。
Magic Data开源DMS驾驶员行为数据集,数据集针对性采集了19+种驾驶员的典型危险交互行为,分别标注了人脸区域、人头区域及交互物品区域。数据集采用单帧和连续帧结合的标注方式,是DMS领域目标检测和行为检测的高价值数据产品,也是DMS算法落地的试金石和加速器。