2021年,语言学家Emily Bender和计算机科学家Timnit Gebru发表了一篇论文,将当时新兴的语言模型领域描述为“随机鹦鹉”之一。他们写道,语言模型“是一个系统,它根据如何组合的概率信息,随意地将从大量训练数据中观察到的语言形式序列拼接在一起,但不涉及任何意义。”
这句话流传了下来。人工智能仍然可以变得更好,即使它是一只随机的鹦鹉,因为它拥有的训练数据越多,它看起来就越好。但是像ChatGPT这样的东西真的能显示智力、推理或思考吗?或者仅仅是在不断增加的规模下,“随意地将语言形式序列拼接在一起”?
在人工智能世界里,这些批评通常会以挥手的方式予以驳回。去年,当我与山姆•奥特曼(Sam Altman)交谈时,他对听到如此过时的批评几乎感到惊讶。“这仍然是一个广泛持有的观点吗?”我的意思是,考虑到这一点,还有很多严肃的人这样想吗?”
“我的看法是,在GPT-4之后,人们大多不再这么说,而是开始说,‘好吧,它有效,但太危险了。’”他说,GPT-4“在一定程度上”起到了推论作用。
有时,这种争论感觉像是语义。如果人工智能系统能够解决以前超出计算范围的问题,那么它是在推理还是只是鹦鹉学舌又有什么关系呢?当然,如果你试图创造一个自主的道德主体,一个能够接替人类成为宇宙主角的通用智能,你可能希望它能够思考。但如果你只是在做一个有用的工具——即使它足够有用,足以成为一种新的通用技术——这种区别重要吗?
符号不是事实
事实证明,是的。正如卢卡斯·伯格伦德等人去年所写:
研究人员向大型语言模型“教授”了一堆虚假事实,并一次又一次地发现,它们根本无法进行反向推断的基础工作。但这个问题不仅仅存在于玩具模型或人工情境中:
解释这一点的一种方法是认识到法学硕士不学习事实之间的关系,而是学习符号之间的关系,即本德尔所描述的语言形式。代币“汤姆·克鲁斯的母亲”与代币“玛丽·李·菲佛”相连,但反过来不一定正确。这个模型不是在推理,而是在玩文字游戏,事实上,“玛丽·李·菲佛的儿子”这个词没有出现在它的训练数据中,这意味着它无能为力。
但另一种解释方式是认识到,人类在这方面也是不对称的。我们的推理是对称的:如果我们知道两个人是母子,我们可以从两个方向讨论这种关系。但我们的回忆却不是这样的:记住名人的趣事要比在没有上下文的情况下,用一大堆几乎认不出来的信息来提示,并要求你准确说出你为什么认识他们容易得多。
在极端情况下,这是显而易见的:比较一下被要求列出美国所有50个州的名字和被要求列出50个州的名字并说出它们组成的国家的名字。作为一个推理问题,事实是对称的;作为一项回忆任务,它们不是。
但是医生,这个人是我儿子
这绝不是法学硕士远远缺乏推理能力的唯一一类问题。长期从事人工智能研究、对法学硕士持怀疑态度的加里•马库斯(Gary Marcus)本周给出了自己的例子。前沿系统无法解决的一类问题是类似于普通谜题的问题,但并非如此。如果你想明白我的意思,在你最喜欢的聊天机器人中试试这些:
这三个问题的答案都很简单(男孩的另一个父亲;把所有的东西放在船上,过河;不,显然不是,除非你想要一只山羊),但它们看起来更复杂或更棘手,法学硕士们会在他们期望的答案中跌跌撞撞。
马卡斯:
我对采用“空白之神”的方法来看待人工智能持谨慎态度:认为前沿系统今天无法做到的事情是它们永远无法做到的事情,这是一种让人看起来很愚蠢的快速通道。但是,当人工智能的批评者提出的模型准确地预测了这项技术将面临的问题时,它应该会增加本周市场上回荡的担忧:如果泡沫即将破裂怎么办?
如果你想阅读完整版的时事通讯,请在每周二的收件箱中订阅TechScape。