Magic Data

由于自然语言本身的复杂性（例如歧义等），文本表征一直以来都是自然语言理解领域的最基础，也是极具挑战的问题。

如果有更多的研究者愿意公开中文特定领域的数据集，将能够极大地帮助和推动中文特定领域自然语言处理的研究。

高质量的数据应当体现人对于语言的知识和使用方式。

在未来短时间内，基于深度学习的方法，尤其是基于预训练模型的方法，仍然会是主流。

人工标注的质量十分重要，标注的准确性，一致性都是非常重要的评价指标。

在CNCC大会前的专访中，宋彦接受采访时表达以上精彩观点。

第十八届中国计算机大会（CNCC 2021）将于10月28日在深圳国际会展中心举行，CNCC由中国计算机学会（CCF）主办，国家超级计算深圳中心承办（深圳云计算中心），香港中文大学（深圳）协办，是中国计算机领域最宏大的年度盛会。

值Magic Data五周年之际，Magic Data借助此次CNCC大会联合产业界大咖主办一场《人机交互的机遇与挑战》分论坛。来自香港中文大学（深圳）数据科学学院教授宋彦现场做《面向领域的中文自然语言处理面对的数据挑战及机遇》的主题报告。

在论坛正式开展前，论坛主办方Magic Data采访了宋彦，以下为采访整理，希望给大家带来启发。

宋彦：香港中文大学（深圳）数据科学学院教授

以下为采访正文

自然语言理解具体应用中面临的问题

Magic Data：我们通过香港中文大学（深圳）发布的文章了解到，在去年大概10月份左右，您的团队在自然语言处理顶级会议EMNLP发表了6篇论文，论文均聚焦于如何有效利用知识驱动自然语言理解各项任务，并且取得了不错的成绩。自然语言理解在人工智能领域非常重要一环，目前在实际应用中，正在面临哪些亟待解决的技术问题？

宋彦：我觉得目前在实际应用中，至少面临以下问题：

首先是文本的表征问题。文本的表征是自然语言理解的基础。由于自然语言本身的复杂性（例如歧义等），文本表征一直以来都是自然语言理解领域的最基础，也是极具挑战的问题。

从早期的基于特征的词袋方法，到5-10年前的词向量方法，再到近年来的基于预训练模型的方法，每一次文本表征方法的技术突破都能带动各类自然语言理解任务上模型性能的提升。虽然目前的预训练模型已经在各类自然语言处理任务上取得了不错的性能，但其仍把文本视为线性的字符串，而无法学习文本中的结构信息（例如语法结构、语义结构等）。

正因为如此，大多数研究通过加入一些额外的句法或者语义知识，往往都能在各类自然语言处理任务中取得更好的性能，对于更加复杂的任务更是如此。因此，目前的文本表征仍是一个尚未解决的问题，需要更多的研究者参与进来，提升文本的表征能力。

其次是跨领域的应用问题。随着时代的发展和人工智能进入各个行业，涌现出越来越多的针对特定领域的自然语言处理需求。然而，由于缺乏相应的领域内训练数据，难以训练一个能满足使用需求的自然语言处理模型。虽然现有的超大规模模型可以一定程度上实现同时作用于多个领域，但是其巨大的计算开销以及不能针对领域内一些特定的问题进行定制化也是亟待解决的问题。在这个环节，数据量和数据质量在领域内都有比较高的要求，而收集和构建这样的数据集成为了解决这个问题的一个重要先决条件，是一个时间成本巨大的任务。因此，如何利用已有的，其他领域的标注数据，领域内的非标注数据，以及其他各类资源，通过恰当的方法，实现自然语言处理模型跨领域的应用，是一个有效的途径，也是目前各类研究的热点。

Magic Data：正如您此前所说，在自然语言理解领域，近年来发展出了各类基于大数据大模型的处理方案，对数据的数量和质量提出了较高的要求。那么，自然语言理解需要什么样的训练数据？

宋彦：目前主流的自然语言理解往往需要两类训练数据。第一类是主要针对预训练模型和词向量等大规模表征学习的非标注数据，第二类是主要针对各类自然语言处理任务监督学习的标注数据。第一类数据往往对数据的数量有很高的要求。例如，目前主流的中文预训练模型往往都需要至少上十亿字的文本进行训练。在质量上，第一类数据更关注数据文本本身的质量，即语言是否通顺以及具有代表性等等。

相比之下，第二类数据对数据量的要求一般低于第一类数据。例如对于中文分词这类的基础任务，几千句的标注数据就足以训练一个性能尚可的中文分词工具。当然，更多的训练数据会进一步提升模型的性能，但总体而言所需要的数据远远不及第一类数据。然而，第二类数据对质量的要求往往要明显高于第一类数据。除了数据文本本身的质量需要优秀之外，第二类数据往往需要人工标注，因此人工标注的质量十分重要，标注的准确性，一致性都是非常重要的评价指标。较低的标注准确性和一致性会为模型的训练带来更多的杂音，从而影响模型的性能。在此基础上，除了通用数据，还需要领域特定以及针对特殊问题的标注数据，从而完成面向领域的各类自然语言处理模型训练。

鼓励高质量数据公开推动中文数据建设

Magic Data：在数据建设方面，与英文相比，中文特定领域数据建设尚不成熟，您希望中文数据建设上，从哪些方面能够做得更好？

宋彦：我觉得主要有两个方面。

第一个方面是数据的公开性。特定领域的数据由于其领域特点，例如医疗领域往往涉及患者个人信息，在数据公开方面面临先天的巨大挑战。因此，目前较为缺乏中文各类特定领域的公开高质量数据集。因此，目前大多数各类中文特定领域自然语言处理的研究，都使用自己内部的非公开数据。而这并不利于其他研究者在此基础上进一步推进研究的进展。

相比之下，英文领域有较为成熟的各类已经消去个人信息的高质量数据集，这使得任何研究者都可以利用这些数据进行研究，并把它们的结果与前人研究比较，从而推动整个特定领域自然语言理解研究的进步。因此，如果有更多的研究者愿意公开中文特定领域的数据集，将能够极大地帮助和推动中文特定领域自然语言处理的研究。

第二个方面是数据的专业性。一般地，面向特定领域自然语言理解任务的数据集往往需要包含特定领域的专业文本以及领域内专家的知识。然而，由于这种专业的文本往往由专业的机构掌握，难以公开，很多研究者退而求其次地使用各类互联网资讯平台（例如各专业论坛）上的文本进行研究。虽然这在一定程度上缓解了公开数据不足的问题，但这种互联网资讯平台上获取的文本其专业性往往不如专业的文本，为把模型应用于实际专业场景增加了挑战。同时，特定领域数据的标注往往需要领域内的专业知识，而目前数据集构建领域跨学科的合作（例如计算机与医疗，计算机与金融等）仍有提升的空间。值得指出的是，本次我们联合Magic Data举办的中文医疗文本分析比赛使用的医疗术语识别数据采用了18类医疗术语，该医疗术语集合的制定就充分参考和听取了医疗领域专业人士的意见。

Magic Data：自然语言处理上需要高质量的数据，您认为什么样的数据算是“高质量”的数据？

宋彦：我觉得高质量的数据至少需要具备以下几个特征。

首先，该数据的文本要具有代表性，能够代表和体现普通大众（或者某个领域内）的语言使用习惯和方法。使用这样的数据训练得到的模型才更具备应用到实际场景中的潜力和价值。例如，2000年左右早期的数据集（例如CTB数据集）大多采用新闻稿作为数据。当时的互联网才处于早期的起步阶段，大家了解信息，以及处理文本的需求大多集中于新闻领域。因此，这些以新闻稿为代表的数据集就能够满足当时文本处理的需求。然而，随着互联网，尤其是各类社交平台的发展，文本的形式和处理需求也逐渐多样化和专业化。如今，如果希望构建一个面向社交平台的自然语言处理系统，那么，早期构建的新闻数据也许并不是一个合适的选择。相应的，从主流社交平台获取的数据则更为合适。

其次，高质量的数据应该具有专业性，即体现人对于语言的知识和使用方式。以最基础的中文分词为例，我们知道中文的文本在词与词之间是没有空格隔开的。而词作为语言学中一个最基本的可以独立表义的单位，对它的有效识别可以提升模型对文本的理解。一个高质量的中文分词数据，就应当包含和体现语言学家对中文词的研究成果——能够依据一定的规则和语感，系统地判断什么是词，什么不是词。理想情况下，自然语言处理系统通过学习人工标注的分词数据，能够学习和理解人对词与非词的判断依据，从而在遇到未登录词的时候，仍能够正确预测出相应的分词结果。

还有，高质量的数据应该体现出一定的兼容性，即在一定程度上兼容其它的同类数据。就如上所述，高质量的数据应当体现人对于语言的知识和使用方式，然而，不同的研究者对于同一语言现象可能有不同的理解，这就需要数据的构建者能够尽可能地去兼容不同的理解，使得数据集能够体现更广泛的人对语言的理解。例如，本次比赛使用的医疗术语识别数据集，我们在标注的时候就借鉴了已有的CCKS医疗命名实体识别数据集的标注数据。

多模态自然语言处理将成热点

Magic Data：目前中文自然语言处理发展的趋势如何？您有哪些建议？

宋彦：中文自然语言处理经过几十年的发展，从基于规则的方法，到基于实例、统计的方法，再到如今的基于深度学习的方法，模型在各类自然语言处理任务上的性能逐步得到提高。

可以预见的是，在未来短时间内，基于深度学习的方法，尤其是基于预训练模型的方法，仍然会是主流。同时，如何提高预训练模型（特别是那些针对特定领域的预训练模型）的性能，或者如何设计新的文本表征方法，也将是未来研究的热点。对于一些缺乏相应数据资源，其训练数据往往不足以支撑训练一个优秀的深度学习模型的领域，研究领域迁移或者深度学习与规则相结合的方法也是一个未来发展的方向。

此外，随着文本、语音、图像等模态的融合以及其他机器学习方法的进步，面向多模态的自然语言处理研究会逐渐（目前已经）成为研究的热点。

最后，随着脑神经科学、心理学的发展和进步，这些学科与自然语言处理的结合也许会创造新的研究热点，通过对人使用语言时的神经信号的分析，从真正意义上实现模型对人使用语言的过程的学习，从而真正实现对自然语言的理解乃至人工智能的突破。

Magic Data：谢谢宋彦老师。10月28日，让我们一起期待CNCC2021《人机交互的机遇与挑战》分论坛上嘉宾们更加精彩的分享。

新闻

Magic Data5周年 | 专访宋彦：鼓励数据开放，推动高质量中文数据建设

即刻与 Magic Data 建立联系？