公司
blog
Blog
blog
21
Sep
03
Browse: 233
万元奖金等你拿 | 中文临床医学文本分词与命名实体挑战赛开启报名

中文临床医学文本分词与命名实体挑战赛,是由北京爱数智慧和香港中文大学(深圳)联合主办,并获得英特尔OpenVINO团队的大力支持。挑战赛于9月2日正式开启注册报名,整个赛程持续到10月28日止,颁奖典礼将在由中国计算机学会(CCF)主办的2021中国计算机大会(CNCC)技术论坛“多模态在人机交互场景下的思考与挑战”现场举行。 本次NLP竞赛围绕中文临床医学文本内容,对医疗文本的分词和命名实体进行自然语言处理任务,以医疗问答为切入点,推动NLP技术创新,努力扩展到更多应用场景。

本次竞赛奖金丰厚,面向社会各界开放,欢迎全国高校学生、AI科技型企业和自然语言处理爱好者报名参加!

赛题背景

和众多行业一样,医疗行业是人工智能重要落地行业,人工智能将转变传统医疗服务模式并走向智能化。现在新医改大背景下,智慧医疗水平不断提升,服务能力不断增强,患者与医务人员、医疗机构之间的沟通互动愈加频繁化和信息化。在实现智慧医疗过程中,人工智能对辅助治疗、医疗文本分类等领域发挥着重要作用。使得最终提升治疗效率、降低医疗成本、个性化医疗服务的目标成为可能。

人工智能对医学文本的识别离不开自然语言处理(NLP)技术,自然语言处理是人工智能领域的一个重要方向,科研领域一直没有停止在NLP技术上创新步伐。自然语言处理主要应用于机器翻译、舆情监测、观点提取、文本分类、语音识别等方面。其中命名实体识别是文本挖掘系统中的一个重要的基础步骤,命名实体识别的准确程度是其他文本挖掘技术如信息提取或文本分类等的先决条件。

赛题任务

本次大赛的任务是参赛者对主办方提供的中文临床医学病例样本,进行医学文本分词和命名实体的自然语言处理任务。数据类型均为中文临床医学病例文本数据,该文本数据是已被标注好的结构化文本。希望参赛者结合当下前沿自然语言处理和深度学习技术,有效推动人工智能在医学文本领域应用。

数据简介

本次比赛使用的原始医疗数据来源于ChiMed中文医疗问答语料库。该医疗问答语料库包含约20万组从互联网资讯平台获取的医患问答,涵盖内科、外科等共计15个科室,共计约4500万字。其中,每组问答包括标题、患者问题、所属科室、关键词、以及平台注册医生的回答等信息。该数据集可用于包括智能医疗问答、自动分诊、关键词抽取等多项中文自然语言处理任务。关于该语料库的使用和下载等更多信息,请参考

https://aclanthology.org/W19-5027.pdf

在本次比赛中,比赛项目组织方从最基础的自然语言处理任务出发,关注医疗分词和医疗术语标注这两个最基础的自然语言处理任务。比赛项目组织方采用人工方式标注了1000组医患问答中患者问题和医生回答部分的分词和医疗术语,共计约22万字,5500余句。其中,分词部分基本采用宾州中文树库(即Chinese Penn Treebank,CTB5)的分词规范,并在其基础上针对中文医疗领域的语言特点对其稍加改进。医疗术语部分,比赛项目组织方在借鉴了现有主流的中文医疗命名实体识别的标注规范的基础上,结合实际医疗诊断中存在的需求,定义了近20个类别的医疗术语(例如疾病、症状、病情程度、身体部位、科室、治疗方案等),并以此为基础标注数据,成为现存公开中文医疗术语标注数据中包含医疗术语类别最多的数据集。 本次比赛使用的样本数据集和测试数据集将分批次发放,参赛选手需提交模型在最终的开放测试集上的预测结果,用于评测模型的性能。

组队规则

  1. 原则上,本次竞赛以团队形式参与,每个团队不超过4个人。

  2. 参赛团队在比赛过程中被要求提供个人身份信息,如邮箱、姓名、电话等,参赛者须保证提供信息真实性。

  3. 竞赛所使用的数据必须是主办方提供的数据集,不得使用外部数据。

竞赛议程

竞赛分前期报名准备,正式竞赛、公布结果和最后颁奖几个环节。前期报名完成后,参赛者会加入竞赛微信群,比赛中遇到任何问题都可通过微信群进行咨询。

*注:如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知获奖团队。若获奖团队来自于海外,建议进行远程分享对接。

赛道设置

本次竞赛分三个赛道:临床医学文本分词、临床医学文本NER和OpenVINO 推理。

在“OpenVINO推理”赛道中获奖的参赛团队,将被授予“英特尔 OpenVINOᵀᴹ 工具套件领航者联盟”认证。

英特尔 OpenVINOᵀᴹ 工具套件领航者联盟

奖项设置

参赛团队可同时选择多个赛道参赛,并有机会获得相应奖金。例如,参赛团队同时选择三个赛道并且都获得一等奖,将会获得总额11,000元奖金。 获奖团队将有机会参加CCF主办的2021中国计算机大会(CNCC)技术论坛“多模态在人机交互场景下的思考与挑战”现场进行成果演示。 另外,本次竞赛还将设置:

杰出技术贡献奖

参赛团队获得第一赛道或第二赛道任一奖项并且发表论文,将额外获得2000元现金奖励。

参赛团队提交第三赛道“OpenVINO推理”赛道成功案例文章,组委会将根据文章涉及的技术难度,投稿人可获得 1000-10000元不等的现金奖励。

参与奖

参赛团队若参与第三赛道“OpenVINO推理”赛道,提交成功案例并符合要求,即可瓜分5000元的现金大奖。具体提交案例的要求将在后续比赛中宣布。

报名方式

欲参加该比赛的参赛者可发送邮件至cncc_2021@163.com报名邮箱进行报名。邮件标题注明:“中文临床医学文本分词与命名实体挑战赛”。邮件需提交团队名称、机构名称、参与者和队伍负责人姓名、手机号码和邮箱地址。

竞赛报名时间为9月2日~9月8日,欢迎参赛者积极报名参赛!

期待您的参与!

Share
Previous
Page
喜讯 | Annotator® 5.0智能化标注平台斩获“2021企业数字化转型最佳产品奖”
Next
Page
技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021
Popular Tags
Latest Blogs
喜讯 | Annotator® 5.0智能化标注平台斩获“2021企业数字化转型最佳产品奖”

爱数智慧Annotator® 5.0智能化标注平台凭借创新的技术、实用前瞻的功能和个性化的良好体验,从众多候选产品中脱颖而出,一举斩获“2021企业数字化转型最佳产品奖”。

21
Sep
03
技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021

CNCC2021【人机交互技术的机遇与挑战】技术论坛将于2021年10月28日13:00-16:00在深圳国际会展中心CC105B召开,本次论坛由CCF主办,爱数智慧赞助。

21
Sep
03
服贸会特别活动 | 爱数智慧自有数据集优惠3折起

爱数智慧20万小时自有数据集,涵盖30+语种,8大方言区方言的语音识别(ASR)和语音合成(TTS)数据集优惠3折起!

21
Sep
03
聚焦2021服贸会 | 爱数智慧正式上线Annotator® 5.0私有化部署版

Annotator® 5.0是北京爱数智慧为企业端和AI训练师为代表的用户端开发的一款智能化数据标注平台,平台分SaaS免费版和私有化部署版。

21
Sep
03
社区上新 | 新数据集刚推出即开源 确定不来尝鲜一下?

近期,MagicHub.com开源社区开源几组对话式AI数据集,其中埃及阿拉伯语对话音频数据集和巴基斯坦英语朗读数据集为北京爱数智慧最新推出的数据集,并开源在社区供AI开发者用于模型训练或测试。

21
Sep
03
销售部
购买数据集或者获取数据采集/标注服务评估报价,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
销售部
购买Annotator5.0®私有化部署版,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
国家
城市
提交
资源部
如果您想成为爱数智慧的数据采集和标注团队,请填写此表单。
承接数据采集项目
语种*
地区*
承接数据标注项目
语种*
联系信息
姓名*
公司名称*
邮箱地址*
电话*
项目案例*
地址*
提交
市场部
如果您想转载爱数智慧的文章或者告知我们展会信息,请填写此表单。
姓名
*
公司名称
*
邮箱地址
*
电话
*
详情
提交
人力资源部
如果您想要加入爱数智慧,成为团队的一员,请填写此表单。
姓名
*
邮箱地址
*
电话
*
职位
*
上传简历
提交
样例下载
姓名*
邮箱*
电话*
公司名称*
职位
部门
公司产品
我还对以下数据感兴趣
语种:
风格
场景

我们会进行电话回访,确认信息后将提供数据集下载方式。
提交
提交成功
我们的工作人员将尽快与您联系。
页面将在3秒后自动关闭
>
TOP