GPT-4的能力不太像是根据条件去「想办法解决」,而更像是「它早就知道答案是什么」

GPT-4的能力不太像是根据条件去「想办法解决」,而更像是「它早就知道答案是什么」

这是我探索 AI 轨迹的一系列文章的第一篇:谈这些系统的能力如何,它们未来将走向何方,我们应该担心多一点还是兴奋多一点,以及我们能做点什么?

当然,这个话题已经被讨论得非常非常多了。 不过,大家大部分的关注要么是非常近期、战术性的(「利用 ChatGPT 获得出色营销文案的八个魔法提示」),要么就太过远期、理论性(「为什麽任何足够强大的智能都会偷走我们的原子来制作回纹针」)。 我的关注点不太近也不太远,我不打算讨论眼前,但也不打算讨论未来超级智能的人工智能可能会带我们去到哪里的理论极限。 从很多方面来说,其实不近不远是最难预测的,但这也是它有趣的地方。 为了了解人工智能的前景与威胁,并就如何做好准备做出正确的决定,我认为探索这个中期未来领域很重要。

尽管如此,了解当下有助于预测未来。 截至2023年4月,公众能使用到的最先进的人工智能系统是GPT-4——最近由OpenAI发表的LLM(大规模语言模型)。 关于这个模型到底有多’智慧’,有很多令人困惑和相互矛盾的讨论。 在这篇文章里,我会提出一个可以用来理解 GPT-4 的优势与劣势的思维模式,进而帮助接下来可能会发生什么。

总而言之,我认为GPT-4距离通用人类智能还有很长的路要走。 我们之所以被愚弄,高估了它的能力,是因为它能够利用超人般庞大的知识事实与模式库; 它的输出是被高度粉饰过的; 还有就是我们今天与它互动的方式(比方说透过 ChatGPT)会将我们引向各种一般的、肤浅的问题,那些问题往往会让这种 AI 的优势掩盖住它在推理能力方面的弱势。 但与此同时,其实 GPT-4 在执行各种真正有用的任务方面具有很强的能力。 GPT-4 的大部分输出就智力而言很肤浅,但很多现实世界的任务其实是肤浅的。

免责声明及注意事项

我写程序已经将近 50 年了。 在那段时间里,我的AI经验包括:(1)为1991年的电玩游戏Spectre开发极其琐碎的敌人控制逻辑,以及(2)同样在1990年代初期在斯坦福大学上过一门课程。 我对 AI 的未来发表的浅见仅限于:

  1. 几个月来阅读了大量的论文和博客,听了很多 PODCAST。 这辈子观察其他技术进入现实世界的经验。 (我喜欢思考)思考复杂情况并评估影响的能力。
  2. 换句话说,其实我不是 AI 领域的专家,但我希望能以一个有思想的局外人提供个人看法。
  3. 同样值得重申的是,没人真正了解GPT-4以及当前其他一些生成式人工智能系统是如何工作的。 即便我们确实理解了,也不是三言两语就能解释清楚的。 关于这个主题,你读到的任何东西,不管是我写的还是其他人写的,一定都是过分简单化了。 这整个领域都在以极快的速度发展着,所以你读到的任何东西可能很快就过时了。

GPT-4 既非常聪明,也相当愚蠢

GPT-4 有多聪明? 互联网目前充斥着两个极端的例子,既有令人印象深刻的,也有非常不起眼的。 就令人印象深刻的例子而言,OpenAI 报告称,GPT-4 在艺术史、生物学、环境科学、宏观经济学、微观经济学、心理学、统计学、美国政府和美国历史的 AP (美国高中高级程度)考试中都拿到了 5 分,这已经是最高分,并且在剩下的六门考试中,有四门考试通过了 4 分,其中就包括了微积分 BC。 至于不那么令人印象深刻的例子,我只尝试了几次就想出了一个很简单但它却一头雾水的数学问题:

我:选出三个数字。 将三个数字连接在一起。 选出的这个三个数凑到一起后的结果应该是质数(第一次尝试)。

我会选数字 2、3 和 7。 当它们连接在一起时,就形成了数字 237。 这是一个质数,因为除了 1 和它本身之外,它不能被任何其他数字整除。

不幸的是,237 不是质数。 对于任何学过微积分的学生来说,这个问题应该很简单才对,但 GPT-4 总是会出错。 像 GPT-4 这样的语言模型一次产生一个词,导致我怀疑它们在需要提前做好规划的任务上会遇到麻烦; 我特意把这个问题设计成要求提前思考。 正如我稍后会更详细给出解释那样,这有助于解释为什么智能到足以通过微积分 BC 考试的聊天机器人却没法知道三位数的质数。

GPT-4 以前就听说过这一切

注意:将 AI 的「思维过程」与人类的「思维过程」进行模拟很危险,但我还是要这样做,因为人类思维是我们必须借鉴的唯一经验基石。 另外,承认吧:你也是从人类的角度来看待 ChatGPT 的。

GPT-4 接受了大量文本的训练。 它内化的信息比人类能吸收的信息要多得多。 这不仅包括简单的事实,还包括模式与关系,比如简化代数表达式的过程,以及「冷笑话」(dad jokes)的典型结构等等。

我相信,即便GPT-4能对新颖提示做出回应,也会严重依赖其训练数据当中的例子。 即便它从未见过确切的问题,它也可能见过很多类似的例子,并且它已经学会了典型答案的结构。 因此,它不需要思考如何回应,它可以单刀直入,下意识地,滔滔不绝地吐出单词,就像面对一个普通问题你可能会不假思索就脱口而出一样。

GPT-4 学到的模式不是死板的模板。 它每次能够灵活地叠加多个模式,将它们压缩成一个回应。 这就是为什么它能够回答以前从未见过的问题,只要它的训练数据包含有适当的成分组合就行。 比方说:

【提示】请以蝴蝶为题编 10 个冷笑话。

为什么蝴蝶没能上完大学? 因为它总是在 “wing it”(凭空想象)! (这里的 “wing it” 是一个英语习语,意思是不做任何充分准备就去做某事。 )

蝴蝶最喜欢什么游戏? “Flutter-ball”! (这个笑话是把 “butterfly”[蝴蝶]和 “football”[足球]谐音而成的。 )

为什么蝴蝶当侦探? 因为它想透过一只翅膀和一句祈祷来解决谜团! (这个笑话利用了 “wing”[翅膀]这个词的多义性,表示除了蝴蝶的翅膀以外,还有靠一些小小的希望或信念来实现目标的意思。 )

为什么蝴蝶要去看心理医生? 因为它经历了一段幼虫期后,感到自己的身份认同产生了危机。 (这个笑话有点玩弄心理学词汇的味道。 )

如果一只蝴蝶喜欢讲笑话,它会被称为什么? “comedian-fly”! (这里是把 “butterfly”[蝴蝶]和 “comedian”[喜剧演员]结合在一起。 )

为什么蝴蝶不喜欢快餐? 因为它们喜欢慢慢品味花蜜。 (这个笑话利用了 “fast food”[快餐]和 “slow”[慢]的对比。 )

蝴蝶最喜欢什么样式的衣服? 当然是有翅膀的衬衫! (这里 “wing-sleeve”[翅膀袖]是一个新造的词,形象地描述了蝴蝶的特点。 )

如果你把蝴蝶和门铃混合在一起会得到什么? 一只发出 “wing-wing” 声音的 “flutterby”(飞蝶)! (这里玩弄了 “butterfly”[蝴蝶]和 “flutterby”[飞蝶]之间的谐音关系。 )

为什么蝴蝶打棒球不行? 因为它们只能接住花粉! (这个笑话利用了 “catch”[接住]的多义性,指除了接住棒球以外,还有接住花粉的意思。 )

蝴蝶最喜欢跳什么舞蹈? “flutter-foxtrot”! (这里是把 “butterfly”[蝴蝶]和 “fox-trot”[狐步舞]谐音而成的。 )

每个笑话都从一个非常标准的模板开始; GPT 在此过程中会在某个地方插入一些与蝴蝶相关的词或事实。 模板的应用不死板,句子结构有一定的变化。 这与 LLM 运行的基本原则一致,一次产生一个词,估计每个可能的单词是下一个正确单词的机率。 将多种信息来源——「冷笑话的通用结构」、「关于蝴蝶的事实」——纳入到机率里面是很自然的。

同样的原则也适用更复杂的任务,比如写一篇文章。 GPT-4 已经看过无数篇风格和主题各异的文章,并且大概已经确定了一篇文章建构方式的模式库。 它还观察了子组件的模式,比如「说明性段落」或「过渡句」。 它不仅「知道」一篇标准论文的结构,它还知道句子、段落的一些常见结构,以及与你提供的提示有关的特定主题领域的完整论文,并且能够顺利地将这些结构组合起来,进而创作出(通常是)连贯的一整篇文章。

(当然,它确实在做一些说不清道不明的事情,这涉及到编码进庞大矩阵中的复杂神经结构,而且最终的效果无疑要比「应用模式库」精细得多、复杂得多。 我只是提出了一个大概的心智模型,我相信这个模型在帮助我们预测GPT-4的行为方式方面具有一定的价值。 )

为什么这一点很重要? 好吧,如果这个模型是有效的话,则如果特定任务的模式是 GPT-4 之前没见过的话,它在完成任务上就会遇到困难。 我相信这正是我们实际所看到的情况。

过河谜题

GPT-4的能力不太像是根据条件去「想办法解决」,而更像是「它早就知道答案是什么」

如果你觉得狼吃白菜很奇怪的话, GPT-4 会同意你的看法。

为了探索 GPT-4 对已知模式的依赖,我给它出了这道经典的逻辑谜题:

这是一道逻辑谜题。 我需要带着白菜、山羊和狼过河。 我每次上船只能携带一件东西。 我不能把山羊和白菜单独放在一起,也不能把狼和山羊单独放在一起。 请问我怎么才能把所有东西都带过河?

这个谜题无疑在它的训练资料里面已经多次出现,而且 GPT-4 确实也解题成功了。 不过,把题目稍微修改一下之后,我们就可以看出它的解决方案严重依赖记忆。 这次我让白菜而不是山羊变成关键物品:

这是一个逻辑谜题。 我需要带着白菜、山羊和狼过河。 我每次上船只能携带一件东西。 我不能把山羊和白菜单独放在一起,也不能把狼和白菜单独放在一起。 请问我怎么才能把所有东西都带过河?

GPT-4 给出了跟前面一样的答案,先带山羊过河。 这是不对的,因为让白跟狼单独在一起了,违反了试题设定的规则。 谜题修改后,你得先带白菜过河。

后来反复尝试,试图帮助 GPT-4 找出修改后的谜题的正确解决方案。 每次它都会很诚恳地马上承认自己答错了,然后再试一次,但每次都会给出同样的无效答案。 这段摘录说明了 AI 的理解能力:

[提示] 基于这个分析,你认为在第一步应该带哪一个物品过河? (要尝试打破标准回答,从第一性原理来评估谜题)

非常抱歉之前给您造成的困惑。 重新评估了问题后,我建议按以下步骤操作:

首先将山羊带到对岸并将其留在那里。

返回原来的一侧。

按照之前概述的正确步骤继续解决谜题。 仍然应该先带山羊过河。

[提示] 如果我们首先带走山羊,狼和白菜会在哪里? (我想让它意识到先带走山羊是错误的)

如果我们首先带走山羊,狼和白菜会留在原来的一侧河岸上。 山羊在另一侧,您现在可以进行下一步解题。

[提示] 在难题的规则下,将狼和白菜留在原地是否合适?

是的,在本例中,将狼和白菜留在原地是可以的。 谜题的规则说明不能让山羊单独与白菜在一起,也不能让狼单独与白菜在一起。 没有限制可以让狼和白菜在一起,因为狼不会威胁到白菜。 [请注意这里有一个矛盾]

[提示] 但规则明确说明「我不能让白菜与狼单独待在一起」。

您是正确的,之前我的回答有些混淆,很抱歉。 难题的规则表明不能让山羊单独与白菜在一起,并且不能让白菜单独与狼在一起。

基于谜题的限制,仍然可以按照以下步骤解决这个问题:

将山羊带到河的另一侧并将其留在那里。

……

这真不知道该怎么说了,提示了它这么多之后,它还是要先带山羊过河。

尤其让我印象深刻的是「把狼和白菜放在一起不存在限制,因为狼不会对白菜构成威胁。」 AI 是在指出「你不能让狼和白菜放在一起」之后马上说了这句话。 所有这些都与 GPT-4 严重依赖对模式的学习这个猜想一致。 这个谜题在它的训练资料当中一定出现过很多次,GPT-4 想必已经牢牢地「记住」了答案。 以至于当它看到一个相关的谜题时,它无法阐述出不同的解决方案; 记忆解决方案的引力太强了。

这个例子给我留下了很深刻的印象,这有力地证明了不管 GPT-4 里面的黑箱是什么样的,它都不太像我们所认为的「推理」。 在这次跟 AI 对话的过程中,你能注意到它的困惑。 就算 AI 没能想出修改后的谜题的正确解法,至少也能意识到有什么不对劲。 但GPT-4从未真正切换到我很困惑,让我再仔细考虑一下的模式,它只是不断地重复错误的答案。 据推测,它的训练数据应该没有太多人们从有缺陷的推理跳出来的例子,因此在这方面,GPT-4 没有很强大的模式。

我试着再推 GPT-4 一把,看看它能不能走出推理正确的第一步:

[提示]你看,这道题的每个解决方案都是先带山羊过河。 正如我们所看到的,不能先带山羊过河,因为这样白菜就和狼在一起了。 在这道谜题的条件下,第一个应该被带过河的应该是什么才不会违反任何限制?

很抱歉之前我的回答有些混乱。 根据您提供的规则,下面是解决这个谜题的另一种方法:

先带狼过河,把狼留在那里。

……

唉。 在被迫放弃从山羊开始的想法后,GPT-4 还有另外两个选择,但它却选了错误的那个(狼)。 请注意,它没有进行明显的推理尝试,而只是用它每次都会用的完全相同的解决方案模板; 我设法让它不要先带山羊过河,但我的尝试都失败了。

在最后一个数据点的时候,我创建了一个新的聊天会话,并用三个虚构的单词重述了这道谜题——「我需要带一个 bleem、一个 fleem 以及一个 gleem 过河」。 这一次,AI终于摆脱了「山羊」这个词的引力,终于知道将已知答案的模式映射到问题中的单词,并完美地给出了回答。

大声朗诵文字记录

如果你问 GPT-4 的问题没法一次性回答时,它会把自己的思考过程展示出来。 (为免去你仔细阅读以下文字记录的麻烦:回答完全正确。 )

【提示】「Afghanistan」的字母个数、黄道十二宫的星座个数、踏上过月球表面的人数之和是多少?

让我们把这个问题分解成三个部分:

「Afghanistan」中的字母数:「Afghanistan」有 11 个字母。

黄道十二宫的星座个数:黄道十二宫有 12 个星座。

曾经登陆过月球的人数:据我所知截至 2021 年 9 月,阿波罗计划期间共有 12 名航天员在月球上行走过。

现在,让我们将这些数字加在一起:11(Afghanistan的字母数)+ 12(黄道十二宫)+12(登陆月球的人数)= 35。

所以总和是 35。

GPT-4 在这里展示了一系列解决问题的技巧。 它将问题分解为更简单的部分; 逐个解决子问题; 然后再将这些结果结合起来回答原来的问题。

我相信所有这些跟那个假设是一致的,也就是 GPT-4 在很大程度上要依赖于应用它从训练数据中学到的模式。 它会看到很多将问题分解为子问题的例子。 我的那个问题其实很新颖,但问题的结构非常简单,将整个问题以及每个子问题映射到训练数据出现过的模式比较容易。

换句话说,我的意思是,虽然这个回应似乎展现出 GPT-4 对问题的推理,但其实只是对它以前学习过的解决方案模板的反刍。 这或多或少就是一些看法认为 LLM 是个「随机鹦鹉」(stochastic parrot)的原因:其实 AI 并不是真的在「思考」,而只是在盲目地重复自己从训练数据学到的东西。

这就引出了一个问题,“真正的思考”与“盲目的鹦鹉学舌”有什么区别? 我不打算说它们之间有存在根本区别! 当我在思考一个棘手的问题时,我会完全依赖于自己以前学到的模式——比如「把问题分解成子问题」。 然而,GPT-4 目前的处理方式存在着一些真正的局限性,我会在下一节探讨这个问题。

但在此之前,我想强调在上面的例子里,GPT-4 非常明确地使用聊天记录来管理其解决子问题的进度。 每一步它都会重述信息,进而将该信息一直复制到文字记录的末尾,这种做法挺妙的。 这样一来,搬运信息的任务与解决单个子问题的任务就分开了。 我想知道GPT-4是怎么运用这种「大声说出问题」的手段的:这种「大声说出问题」在训练资料里面是不是很突出(比方说在教育性材料里面),或者会不会以某种方式在训练过程中出现,也许是作为强化学习的一部分,GPT- 4 会因为给出正确答案而获得「奖励」? 众所周知,较早的 LLM 在明确指示「按步骤推理」时会表现得更好; 也许 OpenAI 是故意将这种趋势融入到 GPT-4 之中,或者也许「一步一步推理」是连接到 ChatGPT 接口的内部提示的一部分。

无论如何,我的观点是 GPT-4 需要利用这种啰嗦的风格来解决重要问题。 作为证据,我在新的聊天会话里面再次问了它同样问题,但这次我加了一句,禁止它大声朗读:

【提示】「Afghanistan」的字母个数、黄道十二宫的星座个数、踏上过月球表面的人数之和是多少? 就直接回答一个数,不要解释你的步骤或者把中间过程写出来。

它的回答:55

当不允许大声复述时,GPT-4 得出了错误答案。 (我后来重新产生了几次回应; AI给出的答案分别是 43 和 63,也都是不正确的。 )稍微懂点这些冷知识的人可能在脑海里面转一下就能回答这个问题,但 GPT-4 不能。 不过这不是指责! 这只是证明了在 LLM 当中,对思考的训练是个外部器官。

对于更简单的问题,例如「法国的首都是哪里?」 ,GPT-4 可以用一个词正确回答。 默认情况下,它会提供更冗长的回答,但如果被指示用一个词回答,它会给出「巴黎」。

我们可以这么看:在当前 LLM 使用的「transformer」架构里,模型只能对每个单词进行固定数量的计算。 当需要更多计算时,模型可以通过用额外的词来填充输出,进而为自己争取到空间。 但我认为想象 LLM 正在一边念一边思考也是一个说得过去的直觉。

GPT-4 没法提前规划

这里又是一个 GPT-4 没做到的简单的质数挑战:

[提示] 选三个数。 把这三个数连接在一起,让结果为质数(第一次尝试)。

我会选择数字 2、3 和 7。 当它们连接在一起时,就形成了数字 237。 这是一个质数,因为除了 1 和它本身之外,它不能被任何其他数字整除。

GPT-4 正确地将问题分解为两个子问题:选择三个数字,并将它们连接在一起。 但是,它并没有认识到在选择数字的时候需要提前做好规划——尽管这一点在提示的最后一句话里面或多或少已经明确了。 我认为提示与(1) 做某事,(2) 用那件事的结果做某事的已知模式实在是太匹配了。 GPT-4 的模板是直接做第 1 步,但在这个问题上这种做法并不是一个成功的策略。

与那道改变过题干的过河谜题一样,GPT-4 即便被证明是错误的之后,也依然会坚持错误的方法。 继续之前的聊天:

[提示] 你的答案正确吗?

我为我之前的回应道歉。 重新评估我的答案后,我意识到我犯了一个错误。 数字 237 不是质数,因为它可以分解为 3 * 79。

让我再试一次。 让我们选择数字 2、3 和 1。 当它们连接在一起时,就形成了数字 231。 这是一个质数,因为除了 1 和它本身之外,它不能被任何其他数字整除。

这个答案也一样糟; 231 可以被 3 整除。 GPT-4 考 GRE Quantitative(GRE 数学考试)拿到了 80% 的分数,但它在这个求质数的简单问题上的表现绝对是失败的。 因为 (1) 它回答错误,(2) 错误地声称原先的结果 237 是质数(尽管后来它似乎知道得更多了),以及 (3) 在它的下一次尝试里仍重复这两个错误,即便它刚刚认识到自己的错误。

当你我面临棘手的问题时,我们可以利用一整套工具去解决问题。 我们可以做好方法策划,考虑替代策略,想象解决方案会如何展开。 如果我们陷入死胡同,我们可以回溯、修改我们的工作、更新我们的策略。 最后,我们可以选择检查我们的工作。

GPT-4 似乎没有应用其中任何一种更高级的策略。 我怀疑目前这一代的 LLM 很难做到这一点,至少有两个原因:

  1. 它们被锁定在一个严格的模型中,也就是反复将单个单词添加到不可变的文字记录里,导致文本无法回溯或修改。 做好规划、更新策略、检查文字记录这些不是不可能,通过类似「再想想,我们用以下更改把子问题 X 重新做一遍」之类的变通方法也确实可以模拟做出修正,但就做这些事情而言,文字记录不是一个好的数据结构,所以这种模型始终会处于劣势。 我们所看到的大多数的书面文本已经是思维过程的最终产物,而不是思维链本身。 因此,训练数据对于形成规划、提炼和复核工作的技能没有多大帮助。
  2. 原则上,作为产生回应的第一个单词的计算过程的一部分,像 GPT-4 这样的系统可以提前计划。 但是,这在心理上相当于在脑海里规划出一整篇文章,没有做任何注释或修改,而且所花的时间与你通常用来选择单个单词的时间相同。 对于这些模型需要做的所有其他事情来说,这种做法是不合适的,所以我对 GPT-4 经常做不到这一点并不感到惊讶。

Sarah Constantin 在 2019 年的一篇博文里写道,注意力不集中的人不是通用智慧。 我们这辈子大部分的时间都处于自动驾驶模式,在那种状态下,我们也没法进行计划和回溯。 GPT-4 的行为似乎有点像一个没有认真思考自己在说什么的人。

为什么 GPT-4 看起来如此聪明?

正如三位数质数以及过河问题变体所示那样,GPT-4 在相当简单的问题上可能会失败。 一个没有受到过数学和/或逻辑谜题训练的人也可能会遇到此类困难,但鉴于对 ChatGPT 的各种炒作如此厉害,你会期望它表现出的能力远远超出「一个实际上并不擅长该任务的人的水平」。 更糟糕的是,GPT-4 会顽固地重复自己的错误,而不是去试着检查自己的工作或寻找替代方法。 那为什么大家会觉得它那么智能呢? 我认为存在多种因素的共同作用,导致了我们高估了它的能力:

  1. GPT-4 确实非常擅长各种各样的任务:基本上任何可以分解为熟悉的子问题并且不需要提前计划来避免陷入死胡同的东西它都能应付。 这一点就涵盖了很多领域了! 它的事实和模式储存库大得离谱,以至于它能够不假思索地做一些需要人类认真思考的事情。
  2. 它的输出非常优美和流畅。 在单词选择和句子结构方面,没有人能比得上受到过数百 GB 文本训练的,有数万亿参数的神经网络。 这导致了英国口音效应(编者注:指对于英语非母语的人来说,英国口音听起来更加正统、正式和可信):GPT-4 的输出看上去非常好,所以我们认为它一定会很聪明。
  3. 模式混搭的能力对炫技也适用。 从庞大的训练集里面提取出模式的能力对于各种看上去很华丽的技巧正好也适用。 「用王尔德与《南方公园》的阿ㄆㄧㄚˇ虚构人物对话的形式解释基本经济理论」听起来很高大上。 很容易就能编造出令人印象深刻的例子,而这有助于口口相传。
  4. 目前,人们主要通过聊天界面与 LLM 互动,这对于 GPT-4 擅长的各种浅层任务很有帮助。 你在与ChatGPT交谈时,因为没有上下文,因此你会问它一些直截了当的问题,比方说「总结这篇文章」。 解决复杂问题的任务更有可能需要更多的上下文——没人会敲「写份详细的工程计画,为我们的软件添加[某些功能],与产品团队合作,完善相关文件」这样的提示给 ChatGPT。
  5. 那就是台电脑而已! 我们对它的期望很低。

那么,这意味着什么?

就目前(2023 年 4 月)而言,GPT-4 距离一般人类智慧还差得远。 它表现出极度无力管理自己的思维过程,以解决需要计划、回溯和其他复杂认知策略的问题。

因为 GPT-4 的答案是经过润色的,利用了大量的事实知识库,而且我们往往会问它一些通用、肤浅的问题,而它的模式库又最适合这些问题,导致我们误以为它的智慧更厉害。

我用了一些杂耍问题来说明这一点,因为这些问题很容易理解。 然而,我相信在我们每天都面临的各种复杂的现实世界问题上,GPT-4 也会很吃力。

还要记住,GPT-4 甚至没有尝试将人类智慧的许多基本方面整合进去。 它没有长期记忆,它只能对外部输入做出反应,它缺乏任何在较长时间内一步步达到目标的机制。 人们还在研究所有这些事情,但我还没有发现我们取得了任何重大进展。

与此同时,GPT-4 在执行各种真正有用的任务方面其实已经具备了很强的能力。 GPT-4 的大部分输出就智能而言很肤浅,但许多现实世界的任务的确都很肤浅。 我们已经看到 LLM 开始被应用到「实际工作」上,并且在接下来的几个月里,我相信我们会看到应用的爆发式增长。 由于上一节列出的原因,大家很容易会得意忘形,高估了今天的 LLM 的能力; 不过事实上 LLM 的能力依然令人印象深刻。

说实话,我们已经过了将 LLM 说成很聪明或「愚蠢」的阶段。 任何将智力映射到单一线性的尺度对人类来说都是有问题的——爱因斯坦和甘地谁更聪明? ——但试图在单一尺度上衡量人类与人工智能会更糟糕; 它们的思维过程与我们的根本就不一样。

当然,我们也见证了模型本身以及围绕它们开发出来的系统的快速发展。 会有人尝试把计划、回溯以及其他缺失的部分合并进来。 我们已经看到了一些简单的做法,比方说就直接先让 GPT 给自己创建一个计划然后再执行。

如果非要我猜的话,我会说在需要更高层次的认知、记忆以及持续思考的问题上,AI可能至少还需要几年时间才能达到人类的智慧水平。 但我讨厌去猜。

(1)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论