大语言模型:基础与前沿
上QQ阅读APP看书,第一时间看更新

1.1 新时代的曙光

人工智能(Artif icial Intelligence,AI)的最终目标是创造出能够以类似于人类交流的方式进行对话的机器。这些机器被称为自然语言理解(Natural Language Understanding,NLU)系统。它们被视作人工智能的顶峰,因为语言被认为是人类智慧的缩影。在人工智能和自然语言处理(Natural Language Processing,NLP)中,NLU研究经历了乐观和失望的交替时期(Bowman et al,2022)。然而,最近在NLU技术方面取得的进展让人们对创造出能像人类一样交谈的机器重拾信心。

这些系统被称为大语言模型、大型预训练模型或基础模型(foundation model)。它们是具有数十亿个参数(权重)的深度神经网络,在庞大的自然语言语料库中进行“预训练”。这些语料库包括海量的Web数据、在线图书和其他包含TB级数据的数据集。在训练过程中,这些神经网络的任务是利用一种称为“自监督学习”的方法预测输入句子的隐藏部分。由此产生的网络是一个复杂的统计模型,能够反映出训练数据中单词和短语之间的关系。

得益于新一代的NLU系统,人们对于创造“会说话的机器”的信心空前高涨。ChatGPT是迄今为止非常先进的会话智能体(agent),其优势确实令人印象深刻。这可以从下面的例子中得到证明。

问:给定一串数字1、11、21、1211,下一个数字是什么?
(ChatGPT于2023年3月24日测试):序列中的下一个数字是111221。要想知道这个数字是如何得到的,可以看看数列中的上一个项:1211。这个项可以理解为“一个1,一个2,两个1”,从而得出数列的下一个项:111221。这个项可以理解为“三个1,两个2,一个1”。
序列的模式是每一项都描述了前一个项。例如,第四项描述第三项,即计算第三项中每个数字出现的次数,然后将这些数字写成一个新数字。
所以,为了找到序列中的第五项,我们需要计算在第四项(1211)中每个数字出现的次数,即“一个1,一个2,两个1”。然后,我们将其写成序列的下一个项:111221。

问:李先生有4个儿子。每个儿子都有一个妹妹。李先生有多少个孩子?
(ChatGPT于2023年3月28日测试):李先生有5个孩子。
这个谜题是一个典型的诡计问题,它基于这一事实:问题的措辞可以有不同的解释。
初看上去,问题似乎是在问李先生共有多少个儿子,也就是4个。然而,问题接着指出,每个儿子都有一个妹妹,这意味着李先生的孩子中只有一个女孩。因此,李先生的孩子总数是4个儿子加1个女儿,等于5个孩子。

问:两年前,我的年龄是弟弟的三倍。三年后,我的年龄将是弟弟的两倍。我们现在各自的年龄是多少?
(ChatGPT于2023年3月28日测试):假设你现在的年龄是“x”,你弟弟现在的年龄是“y”。
从第一条信息中,我们知道,两年前,你是“x-2”岁,你弟弟是“y-2”岁。我们还知道,当时你的年龄是你弟弟的三倍,所以我们可以建立以下方程:
x-2=3(y-2)
展开这个方程可以得到:
x-2=3y-6
x=3y-4
从第二条信息中,我们知道,三年后,你将是“x+3”岁,你弟弟将是“y+3”岁。我们被告知,届时你的年龄将是你弟弟的两倍,所以我们可以建立以下方程:
x+3=2(y+3)
展开这个方程可以得到:
x+3=2y+6
x=2y+3
我们现在有两个方程和两个未知数。我们可以通过代入法,用一个变量来求解另一个变量:
3y-4=2y+3
y=7
将y=7代入任一方程,我们就可以解出x:
x=2y+3=17
因此,你现在17岁,你弟弟7岁。两年前,你15岁,你弟弟5岁;三年后,你20岁,你弟弟10岁。

如上所示,大语言模型能够通过解决数学和推理问题来回答人类的问题,同时还能为其答案提供解释。此外,这些模型还能生成语法正确、语义连贯、文体流畅的文本。ChatGPT的表现前所未有,而且现在已经被公众广泛使用。人们可以用各种语言与ChatGPT互动。因此,这些基于大语言模型的系统的能力给人留下了这样的印象:它们对自然语言有类似人类的理解,并表现出智能行为。