行业洞察 | 听说，大语言模型无法接近人类水平智能？

发布时间 : 2022-09-02 阅读量 : 1904

近日，图灵奖得主 Yann LeCun 对于人工智能的前景提出最新思考，“语言只承载了所有人类知识的一小部分；大部分人类知识、所有动物知识都是非语言的；因此，大语言模型是无法接近人类水平智能的”。Yann LeCun认为，当前流行的大规模语言模型存在明显的极限。未来 AI 领域努力的方向或许应该是让机器优先理解真实世界其他层面意义上的知识。

而就在不久前，Google工程师Blake Lemonine对外宣称谷歌的大型语言模型LaMDA具有人类的“自我意识”，在他的看法中，即便藉由OpenAI开源架构形式建构的最大语言神经模型GPT-3打造的人工智能，亦可能出现“人”的意识。

关于人工智能到底是否具有“人格”的讨论遍布国内外社交平台，领域内的研究者持有着各自不同的看法。

「AI到底有没有“意识”，其智能极限是否有限？」

关于AI是否有“意识”这个问题，从客观唯物主义思想看，答案是否定的。即使AI能够遍览全书通晓古今，也不能定义其具有“意识”。人类的自我意识除了能理解书面表达意识之外，具有因个人过往经历不同，从而拥有不同的思维与共情模式的特征。

例如，人类之间的交流，当提到“妈妈”这个词的时候，因为不同的经历或者与对话者共同的经历，我们会有不同的话题延拓，大脑中大量的信息、情感区域都会产生联动。AI也可以谈论所有这些事情，但并不意味着它理解正在谈论的内容。

纵然AI能够集百家之所长，但是却无法集一个人的平生经历或者经验与一体。如Yann LeCun所提，最根本的问题在于语言的有限性。一旦我们放弃了关于意识和语言之间联系的假设，这些系统就注定只能有关于世界的肤浅理解，永远无法接近人类的“全面思维”。

而即便大语言模型LaMDA能够对人类的对话做出合理的预测，它也不过是接受了数十亿单词的训练，将文本转换为“Token”和“嵌入(Embedding)”，然后对嵌入进行处理以添加其他维度。比如文本序列中单词之间的关系以及它们在句子和段落中的作用，并学会通过预测下一个单词序列来回应提示。

「与其争论AI意识与智能水平，何不善假于物呢？」

荀子曰“君子生非异也，善假于物也”。意思是：君子的本性同一般人没有什么差别，但是他们善于借助外物进行学习。其实人类社会中，有很多美好的灵魂都被边缘化，他们就是残障人士，中国总共八千万残疾人，但我们在大街上很少遇到残疾人，即便再高贵的灵魂和自我意识，外在躯体的不方便仍让他们珠玉蒙尘。倘若让AI的外在能力辅助残障人士的生活和工作，岂不是获得共赢。

目前，国内已有团队开始进行这方面的研究。天津理工大学“鲸言创益”无障碍智能科技研发团队用近5年时间，构建视频语料库，研发“复杂场景下中国手语实时翻译系统”。在听障人士打手语的同时，屏幕上就能够自动“翻译”出文字，只为让更多听障人士被“听见”。

无独有偶，上海首个盲人咖啡“种子店”在浦东新区华润时代广场开启试营业。双胞胎兄弟殷天保、殷天佑是两个盲人，但是他们现在已经依靠在线语音识别技术辅助自我在社会上实现了个人价值。

而训练这些AI的语音和自然语言相关的语料，通常由专业数据团队提供，通过更多的数据才能让AI变得更加“Smart”。Magic Data作为一家为众多AI产品提供数据的专业数据采集、标注公司，其中涵盖各个领域与语种的对话数据、自然语言处理数据以及图像数据，其样例如下：

中文人机交互语料库：点击查看详情

广东粤语语料库：点击查看详情

英文车载命令控制语料库：点击查看详情

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | 听说，大语言模型无法接近人类水平智能？

即刻与 Magic Data 建立联系？