为什么让大模型做推理不是一个好主意?

我问了DeepSeek一个问题:一支由50名音乐家组成的管弦乐队用70分钟演奏了贝多芬的《第九交响曲》。那么,一支由100名音乐家组成的管弦乐队演奏同一曲目需要多长时间?

DeepSeek耗时113秒,我就在它频繁而快速的输出中看它一步一步怎么推理的,不看不知道,一看真的让人忍俊不禁。

正常的推理过程应该是这样,大前提,《第九交响曲》的演奏时间与乐队规模无关,小前提,50名音乐家的演奏时间是70分钟。

推理结果,100名音乐家的演奏时间也是70分钟。

但是DeepSeek足足输出了3539个字节,洋洋洒洒一大段,我认真了看了两遍,总结起来,DeepSeek做了三件事。

第一件事,理解这个问题,这个倒是理解很快,它确实很快抓住了答案的关键在于演奏时间与乐队长度有没有关系,我认为这点对题目的理解是完全没问题的。

但是往下走很搞笑了,或者说,根本不叫推理。

第二件事,尝试分析各种可能答案的合理成都。

DeepSeek往下走的过程,其实是在理解这个问题的前提下,不断地计算不同回答的合理程度,或者说叫做概率。

用大白话说,有没有可能,这个答案是最合理的。

它的第一个答案是最短给出的,其实也是正确答案,依赖这么一个前提,就是演奏时长与阅读规模无关,但是大模型显然并不理解什么是大前提,或者说它根本不懂逻辑学,只是把这个当成假设。

所以在输出第一个答案以后,它自己马上觉得可能不太对,进而选择了用数学建模。

数学建模的过程就有点搞笑了,其实是否认了基本的大前提,那就是演奏时间与乐队规模无关,而是把乐队人数与时常进行简单的乘法,乘完以后发现结论很荒谬,答案是35分钟,很可能不是问题的答案。

于是DeepSeek开始不断地自我提问,在这个过程中,它联想到两个问题。

其中一个问题是这样的:如果一位女士生一个孩子需要九个月,那么九位女士生一个孩子是否只需要一个月?

另一个问题是这样的:如果6只猫6分钟捉6只老鼠,那么100只猫捉100只老鼠需要多少分钟?根据工作速率,猫的捉鼠速率是每分钟1只老鼠,所以100只猫每分钟捉100只老鼠,因此捉100只老鼠需要1分钟。

之所以需要思考113秒,输出3539个字的思考过程,DeepSeek其实主要在是当数学问题还是逻辑问题之间进行摇摆,但是显然它并没有掌握逻辑推理的形式,所以虽然一开始就解析出了答案,但是它还是一直在犹豫,摇摆。

最后是第三件事,排除所有低可能性,筛选出一个最合理的

终于在不断自我拷问后,DeepSeek否决了把这道题当作数学题解析的思路,所以答案就只剩下了最初的70分钟。

但是,它还是无法理解《第九交响曲》的演奏时长与乐队规模无关是一个大前提。

苹果最新的研究成果结论说,以ChatGPT为代表的大模型无法完成逻辑推理,这个结论我认为是完全正确的。

我接下来想讨论的是,为什么大模型的推理,跟常规的逻辑推理完全不一样,仔细排除以后,我认为根源就出在Transformer的基础架构。

Transformer有很多很多的优点,尤其是在生成式的AI内容输出上,它看起来很像人工智能的未来,但我看到DeepSeek公开它的推理过程后,我觉得这个Transformer框架走到了它的瓶颈,不可能代表人工智能的未来。

它不能理解什么是逻辑?

逻辑推理的大前提,小前提,推理结论三个组合在一起,它也看不出来这个结构的关系,它确实可以理解逻辑三段论的每一段,但是加在一起就理解不了。

Transformer框架在加入多头注意力机制以后,确实在观察+提炼特征上已经达到了一个炉火纯青的地步,我们拿盲人摸象这个故事举例。

Transformer框架干的事情,就是请足够多的盲人,每个盲人仔细钻研大象身体的某个部位的详细特征,这样就构成了身体细节的基础知识。

这群盲人用盲文写下他们的观察特征。

它还需要一群哑巴,用耳朵听大象的声音,大象奔跑的声音,大象鼻子呼吸的声音,大象耳朵蒲扇的声音,这样就构成了声音的完整知识。

这群哑巴用文字描述他们听到的声音。

所以它还找来一群聋子,这些聋子有绘画能力,可以把大象的轮廓,还有各个身体部位的细节画出来,但是他们只会素描,不会涂色。

还需要另外一群瘸子,把这些轮廓涂上正确的颜色,形成关于大象颜色的知识。

每一部分的能力都有残缺,而且互相之间很难沟通和表达。

Transformer框架,负责把这不同的输出内容,整合成一个完整的关于大象的知识。在实际处理中,Transformer框架处理的对象是一段语句,但是原理大体如此。

这个框架的致命缺陷就在于,它的处理对象只能是一段独立的话,比如,我是共产主义接班人,这句话它当然完全能理解,但是它理解不了由形式逻辑关联起来的三段论。

共产主义接班人对祖国的未来很重要,我是共产主义的接班人,所以我对祖国的未来很重要,这三句话给大模型,它无法理解这是一段完整的句子,而是分开的三段。

尤其是第一句,在所有的逻辑推理里,建立一个稳固的大前提是最重要的,但是大模型只是把它当成一个假设,但逻辑推理里面不存在假设,大前提是立论基础,而不是可能性之一。

可解释性差只是大模型不具备逻辑推理能力的外在表现,你不遵循严格的形式逻辑,生成的内容当然缺乏说服力,而这个锅,只能由你最基础的Transformer框架去背了。

原文链接:,转发请注明来源!