行业洞察 | 机器翻译何时能够达到可言传，可意会的境界？

发布时间 : 2022-08-24 阅读量 : 1641

2013年至今，随着深度神经网络的发展，机器翻译的效果显著进步，但是尚未达到能够对需要翻译的语言“心领神会”的地步。目前世界上查明的语言有7000多种。其中汉语、英语、西班牙语、俄语、阿拉伯语、法语是世界上的主要语言，也是联合国主要的工作语言。世界上使用人口最多的语言前十位按顺序分别是：汉语、英语、俄语、西班牙语、北印度语、阿拉伯语、葡萄牙语、孟加拉语、德语和日语。语种之多难以想象。

「机器翻译的壁垒」

目前最著名的谷歌翻译也不过只能翻译一百多种语言。但是对于一些小语种的识别准确率也不过60%左右。下面是两个常见的识别错误的例子：

通过上面两个例子可以看出，错误的主要原因在于，机器很难意译，只能照葫芦画瓢，翻译之后意思无法完全正确。连谷歌翻译都尚且如此，对于其他翻译软件更是弊病重出。

机器翻译的其中一个壁垒是小语种的语料库稀缺。且不说覆盖全球所有语种，就是目前国家开展的“一带一路”，其合作文件已涉及110多种语言。“一带一路”沿线国家有65个，除了中国之外的64个国家，所使用的语言大约有80种。除去多个国家采用同一种语言作为官方语言的情况外，实际使用了56种官方语言和通用语言，涉及汉藏、印欧、乌拉尔、阿尔泰、闪-含、高加索及达罗毗荼等多个语系。此外还有不计其数的民族语言，以及各种方言等。其中部分国家由于诸多因素，没有正规的整理过本国语言，要想获得相应语言的平行语料库非常困难。

「机器翻译的未来路」

面对意译无法准确传达这一挑战，一方面，研究者们已经开始将多任务学习联合辅助机器翻译，通过知识图谱推理出上下文的语境，然后对当前的语句进行预测纠正。另一方面，扩大语言训练语料库的民俗用语和习惯用语的预料规模，让深度模型学习相对应的语料场景和使用方式，也就是为机器引入“知识”。比如『中巴』这个例子就存在歧义，如果没有给上下文参考，机器无法判断『巴』是哪个国家的简称。

针对小语种语料库稀缺的问题，通过专业的数据提供商可以更快的帮助研究者采集更多的小语种的语料库。此外，由于语料库的采集需要专业的数据收录、标注、清洗，同时也需要经过语言学专家的指导。

中英印地三语平行语料库：点击查看详情

中葡双语平行语料库：点击查看详情

中泰双语平行语料库：点击查看详

但即便采集到了小语种的语料库，也无法与世界使用人数排名前十的语种相匹敌。因此还需要利用低资源的迁移学习、模型自适应等深度学习方法，将在英语或者汉语使用情况良好的翻译模型迁移到小语种上，实现小语种识别的意会神传。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 机器翻译何时能够达到可言传，可意会的境界？

即刻与 Magic Data 建立联系？