白癜风医院南宁哪家好 http://www.xftobacco.com/m/导读:NLP领域著名学者,斯坦福大学教授克里斯托弗·曼宁(ChristopherManning)在美国人文与科学学院(AAAS)期刊的AISociety特刊上发表了题为《HumanLanguageUnderstandingReasoning》的文章。从NLP学界、业界的现实出发,回顾了NLP语言模型的发展历史,展望大型语言模型的发展趋势,并对语言模型理解人类语言的本质做了哲学层面的探讨。NLP语言模型是否在向认知智能的“奇点”邻近,让我们循着大师的理解来一探究竟。翻译:达观数据解决方案副总监高长宽
Abstract:在过去的十年里,通过使用简单的人工神经网络计算,基于以GPU、TPU为代表的强大算力资源,并在巨量的数据上进行训练,自然语言处理取得了令世人瞩目的成就和突破。由此产生的预训练语言模型,如BERT和GPT-,提供了一个强大的通用语言理解和生成基础(APowerfulUniversalLanguageUnderstandingandGenerationBase),它们可以很容易地迁移到许多语义理解、智能写作和推理任务当中。这些模型显示了一种更普遍的人工智能形式的雏形,这可能会导致在语言以外的感官经验领域产生强大的基础模型(FoundationModels)。
当科学家们考虑人工智能时,他们大多想到的是对个体人脑的能力进行建模或再造。但是,现代人类的智能远远超出了个体大脑的智能。人类的语言是强大的,对我们这个物种来说是变革性的,它不仅是人类区别于其他动物的最显著的特征,更因为它提供给人类一种将众多个体大脑“联网”的方法。人类个体可能并不比我们的近亲黑猩猩或倭黑猩猩的智力高多少。这些猿猴已被证明拥有许多人类智能的标志性技能,诸如使用工具、做计划和在族群中获取权力。此外,它们的短期记忆比我们更好。
直到现在,人类发明语言的时间仍然是不确定的,也许永远都是不确定的,但是在地球生命漫长的进化史中,人类只是在最近很短的时间内不可思议地发展出了语言。原生动物、猴子和猿类的共同祖先可以追溯到万年前;人类从黑猩猩中分离出来可能是万年前,而人类的语言一般被认为只有几十万年的历史。尽管我们不像大象那样强壮,也不像猎豹那样快,然而,一旦人类发展出了语言,交流、沟通的力量会迅速导致智人超越其他生物。最近几十万年,人类才发展出文字(仅在五千多年前),并逐渐拥有了建构复杂句子的能力,使得知识能够在不同的时间和空间的进行流转。在短短的几千年里,这种信息共享机制把我们从悠远的青铜时代带到了现今的智能手机时代。一个高保真编码既允许人类之间的理性讨论,也允许信息的传播,这使得复杂社会的文化演变和现代技术知识积累成为可能。语言的力量是人类社会智能的根本,在人类能力被人工智能工具逐步增强的未来世界中,语言仍将保持重要的作用。
鉴于上述原因,自然语言处理(NLP)领域是人工智能的最早的热门研究方向之一。事实上,关于机器翻译这类NLP问题的最初工作,包括年著名的Georgetown-IBM演示,甚至略早于年"人工智能"一词的诞生。然后,我描述了最近NLP的戏剧性发展,这些发展源自对大量数据进行训练的大型人工神经网络模型的使用。我追溯了在使用这些技术建立有效的NLP系统方面所取得的巨大进展,并在最后对这些模型所取得的成就和该领域下一步的发展方向提出了自己的一些想法。
到目前为止,自然语言处理的历史可以大致分为四个阶段。
第一个阶段,是从年开始再到年结束。NLP研究肇始于对机器翻译的研究。人们想象,翻译可以迅速建立在计算机在二战期间破译密码的巨大成功之上。冷战时期,美苏两方的研究人员都试图开发能够翻译其他国家的科学成果的系统。然而,在这个时代的开始,人们对人类语言的结构、人工智能或机器学习几乎一无所知。现在回想起来,当时可用的算力和数据规模小得可怜。虽然最初的系统被大张旗鼓地推广,但这些系统只提供了单词级的翻译查找和一些简单的、不是很有原则的基于规则的机制来处理单词的屈折形式(词法)和词序。
第二个阶段,是从年到年,这段时间开发了一系列的NLP示范系统,在处理人类语言中的句法和参照物等现象方面表现出复杂性和深度。这些系统包括TerryWinograd的SHRDLU,BillWoods的LUNAR,RogerSchank的SAM等系统,GaryHendrix的LIFER,以及DannyBobrow的GUS。
语言学和基于知识的人工智能发展迅猛,在这个时代的第二个十年,新一代的手工构建(Hand-Built)的系统出现了,它们在陈述性语言知识和程序性处理之间有了明确的分离,并且受益于一系列更现代的语言学理论的发展。
然而,NLP的工作方向在第三个阶段发生了显著的变化,大约是在年~年期间。在这一时期,数字化的文本数据大量出现,引人注目的方向是开发能够在大量自然文本上实现某种程度的语言理解(LanguageUnderstanding)的算法,并利用这些文本的存在来帮助提供这种能力。这导致该领域围绕NLP的经验性机器学习模型进行了根本性的重新定位,也就是从规则转向统计,这一方向至今仍主导着该领域。在这一时期的开始,主流的操作方式是掌握可观数量的在线文本--在那些日子里,文本数据集一般都在几千万字以下--并从这些数据中提取某种模型,主要是通过计算特定的事实。例如,你可能会了解到,人们捕捉到的事物种类在有人的地点(如城市、城镇或堡垒)和隐喻性概念(如想象力、注意力或本质)之间相当均衡。但是,在提供语言理解能力方面,对词汇的计数只能走到这一步,早期从文本集合中学习语言结构的经验性尝试相当不成功。这导致该领域的大多数人集中于构建基于人工标注的语言资源,比如标注词语在某一场景下特定含义、文本中人名或公司名称的实例,或treebank中句子的语法结构,然后使用有监督机器学习技术来构建模型,在运行时对新的文本片段产生类似的标签。
年至今延续了第三个阶段的经验取向,但由于引入了深度学习或人工神经网络方法,这项工作发生了巨大的变化。在这种方法中,词汇和句子的语义通过在一个(几百或一千维)实数向量空间中的位置来表示,而意义或句法的相似性则通过在这个空间中的接近程度(距离远近)来表示。从年到8年,深度学习为建立高性能的模型提供了更强大的基线方案:更容易对较长距离的语境进行建模,而且模型对具有相似含义的词汇或短语的泛化性更好,因为它们可以利用向量空间中的接近性,而不是取决于符号层面的相似性(比如两个词汇在词形方面很接近,但意义无关甚至相反)。尽管如此,在建立有监督的机器学习模型以执行特定的分析任务方面,这种方法是不变的。
word2vec模型训练原理示例
经word2vec训练后,得到的词汇表示在语义空间可以进行加减乘除等数学运算
然而,一切都在8年10月份之后发生了变化---当时NLP是非常大规模的自监督神经网络学习的第一次重大成功。在这种方法中,模型只需接收到极大量(20GB起步)的文本(现在通常是几十亿字),就能学习到大量关于语言和现实世界的大部分知识。做到这一点,得益于transformer系模型强大的自监督学习方式:模型从文本中自动创建能挑战自己的预测任务---类似“完形填空”,例如,例如在给定先前词汇的情况下依次识别文本中的每个下一个单词,或在文本中填写一个被遮掩的词汇或短语。通过数十次重复这样的预测任务,并从错误中学习,所以模型在下一次给定类似的文本上下文语境时做得更好,由此关于语言和现实世界的一般知识被积累起来,然后这些知识可以被应用到下游的语义理解任务中,比如文本分类、文本检索、情绪分析或阅读理解。
事后看来,大规模自监督学习方法(Large-ScaleSelf-SupervisedLearningApproaches)的发展很可能被视为根本性的变化,而第三个阶段7年戛然而止。基于自监督的预训练方法的影响是革命性的:现在有可能在大量未标记的人类语言材料上训练模型,从而产生一个大型的预训练模型,通过微调(Fine-Tuning)或提示(Prompting),可以轻而易举的在各种自然语言理解和生成任务取得较好的结果。因此,NLP的进展和兴趣已经爆炸性增长。乐观一些的看法是,具有一定程度通用智能的蕴含海量知识的系统(Knowledge-ImbuedSystems)正逐渐涌现。
我不能在这里对现在占主导地位深度学习预训练模型进行全面描述,因为18年~22年期间诞生的此类模型及其变种实在是太多了,但我可以提供一个线索。这些模型通过实数向量来表示一切,并且能够在接触到许多文本数据后,通过误差的反向传播(归结为做微分计算)从一些预测任务回到文本中的词的表示,从而学习到较好的语义表示。自8年以来,NLP应用的主流模型一直是transformer系的神经网络。transformer是一个比早几十年探索的简单的词汇序列神经网络复杂得多的模型。其主导思想是attention(注意力机制),通过这种思想,一个位置的表征被计算为其他位置的表征的加权组合。transformer模型中一个常见的自监督目标是遮掩文本中的偶发词(OccasionalWords)。该模型会计算出曾经出现过的词汇。它通过从每个词的位置(包括遮蔽位置)计算出代表该位置的查询、键和值的向量来实现这一目标。将某个位置的查询与每个位置的值进行比较,以计算出对每个位置的