最新发布!查看 MagicData 成品数据集

新闻

press images

NCMMSC 2021 | 工业论坛大咖共话数据 Magic DataCEO张晴晴论“当数据遇上开源”

发布时间 : 2021-10-20     阅读量 : 497

第十六届全国人机语音通讯学术会议(NCMMSC 2021)于10月15日~18日在徐州隆重召开,Magic Data以金牌赞助商身份参与此次盛会,通过展位、主题分享、竞赛论坛等方式,为与会嘉宾带来Magic Data的数据产品、标注工具和技术成果。

17日下午工业论坛开展,论坛由西北工业大学教授谢磊主持,聚集Magic Data、好未来等多家企业嘉宾现场做报告分享。Magic Data创始人兼CEO张晴晴做《当数据遇上开源》的主题演讲,为在座嘉宾详细介绍Magic Data的数据开源社区、标注工具和数据集产品,并呼吁业界更多机构和个人加入开源队伍,共同推动开源事业发展。 同期,Magic Data主办的“对话式AI语音识别及说话人识别(ASR&SD)挑战赛”作为大会重要赛事,于16日竞赛论坛上圆满落幕,获奖参赛者现场成功案例分享吸引大批与会嘉宾,为大会增色不少。

共建开源生态推动AI创新

工业论坛现场张晴晴做主题分享

在AI行业,AI从业者普遍面临难以获取数据的痛点。张晴晴从事AI行业十多年,深知AI开发者对数据的需求程度,希望拥有数据的机构或个人能够将数据共享出来,利益到更多AI开发者。基于这一出发点,Magic Data于今年4月份上线MagicHub.com开源社区,并将部分自有数据集开源到社区供开发者免费下载。 为了方便用户查找开源数据集,社区根据数据应用领域、场景和类型进行分门别类,用户可快速搜索和定位到想要的数据集。目前,为了更好地用户体验,数据集搜索页面仍在不断优化当中。此外,社区还有针对全球用户的英文搜索界面。社区在数据集呈现上,将看到每个数据集的概览,进入到单个数据集页面,可看到这个数据集详细的描述情况。 迄今为止,开源社区已拥有超过100个包含语音识别、语音合成、发音词典等不同类型的开源数据集,覆盖全球超过3000名开发者,数据集累计下载量超过7万小时。 MagicHub.com开源社区开源大量数据集外,社区还与各大高校和相关机构合作,通过组建开发者社群、开展培训和赛事,致力于打造全球AI开发者生态。目前,社区在培训上,与AI光影社、深蓝学院、清华大学语音和语言技术中心、51CTO等合作,为初入人工智能领域的AI从业者开发人工智能科普视频,为人工智能研究人员和算法工程师提供人工智能深度解析课程等。

社区构建的全球AI开发者生态

赛事开展上,社区共发起了ASR&SD挑战赛和NLP挑战赛两大赛事,吸引清华大学、北大、华为、小米、阿里巴巴等各大高校和企业数百个团体踊跃参与。同时,社区建立的开发者社区星辰大使,目前已覆盖超过35个高校学生,共同推广开源事业发展。

张晴晴表示:“希望更多行业大咖能够参与到开源社区生态培训机制里,向开发者分享更多关于行业认知,帮助更多的行业从业者,共同推动开源事业,促进行业创新。”

面向多模态的标注平台

随着技术的进步,目前数据处理难度越来越大,存在上百甚至上千维度的标签标注需求,因此,Magic Data还为AI开发者提供免费的数据标注工具Annotator® 5.0 智能化标注平台SaaS版,该平台可进行标签自定义,用户可根据项目需求进行任意的标签配置。 目前行业多模态标注需求增加,特别针对相应的音视频联动标注,平台也将支持音视频的多模态标注。张晴晴介绍,目前标注平台SaaS免费版已支持音频和文本标注,未来还将支持图像、多模态等类型数据的标注。 对于平台即将上线的文本标注功能,张晴晴认为:“文本标注是整个人机交互过程中必不可少的环节。目前,平台的文本标注功能支持实体抽取、文本分类、文本翻译等。未来还将实现对意图识别、知识图谱、命名实体、关联关系等标注。” 和同类标注平台相比,Annotator® 5.0标注平台在进行文本命名实体类别管理上更加灵活,可对人名地名等进行任意删减操作。 开源是创新一大源头,行业创新离不开企业和机构的推动,Magic Data通过打造开源社区、标注工具和开源数据,携手行业机构、高校和企业共同推进开源事业,打造开源生态,为开发者创新提供更多的资源和更优质的平台,以开源和创新之力加速行业变革的到来。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们