加入我們HHPoker精英德?lián)淦脚_,體驗智慧與策略的碰撞。我們提供公平競技環(huán)境,豐富賽事活動,以及尊享會員服務。攜手并進,共創(chuàng)財富與榮耀,讓每一次出牌都成為精彩瞬間!期待您的加入,共赴德?lián)涫⒀纾?
蘋果的最新論文進一步證實了這一點,表明即使是最新一代的“推理模型”也無法解決這一根本性問題。這對于那些期待 LLMs 通過“推理”或“推理時計算”(inference-time compute)來克服這些局限性的人來說,是一個沉重的打擊。
LRMs 可能存在可泛化推理的根本性障礙;在執(zhí)行精確計算方面也有局限性。
“人類有時會犯錯,往往是因為記性不太好;而 LLMs 擁有海量的存儲空間,再犯錯實在說不過去?!?/p>
LLMs不是“通才”,更不是未來萬能鑰匙
Marcus 認為,AI 的未來應該將科學家級別的因果推理能力與機器的計算速度相結(jié)合,從而在科學、醫(yī)療、能源等關(guān)鍵領(lǐng)域?qū)崿F(xiàn)真正的突破,才可能讓 AI 對人類真正有益。
然而,蘋果團隊的實驗證明,Claude 在處理這個看似簡單的邏輯問題時表現(xiàn)令人失望:7 層準確率不足 80%,8 層基本崩盤。而備受矚目的 o3-min(high)模型表現(xiàn)同樣平平。
正是在這一微妙時刻,蘋果研究團隊發(fā)布了一項顛覆認知的新研究,并被紐約大學心理學與神經(jīng)科學教授 Gary Marcus 解讀為對當下大語言模型(LLMs)的“致命一擊”。
模型的推理行為呈現(xiàn)復雜度相關(guān)性,在簡單問題上表現(xiàn)為低效的“過度思考”,在復雜問題上則完全無法作答。
模型在不同復雜度問題中的表現(xiàn)存在三種分界:在低復雜度問題中標準 LLMs 表現(xiàn)優(yōu)于 LRMs,在中等復雜度問題中 LRMs 占優(yōu),在高復雜度問題中兩者均表現(xiàn)失敗。
https://machinelearning.apple.com/research/illusion-of-thinking
LLMs推理看似縝密,實則在騙人
蘋果的這項研究揭示:無論 AGI 的定義如何變化,當前主流 LLMs 都無法取代結(jié)構(gòu)明確、邏輯清晰的傳統(tǒng)算法。它們在處理某些復雜任務時,表現(xiàn)遠不如幾十年前開發(fā)的專用系統(tǒng)。
反之,如果連 8 層漢諾塔都玩不好,那什么“提取地球光錐”或“解構(gòu)物理學”都將淪為空中樓閣。而更現(xiàn)實的是,像 o3 這樣的模型實際上比專注的人類更容易產(chǎn)生幻覺,在繪制可靠的圖表等方面也十分吃力;它們確實與人類有一些相似的弱點,但在許多方面,它們實際上表現(xiàn)得更差。
研究發(fā)現(xiàn)一個反直覺現(xiàn)象,當問題接近關(guān)鍵復雜度時,模型的推理努力反而減少,這提示 LRMs 可能存在計算能力擴展的內(nèi)在極限。
在 Marcus 看來,蘋果這篇論文從兩個維度強化了對 LLMs 根本性弱點的批判:一個是他本人自 1998 年以來不斷強調(diào)的“訓練分布邊界問題”,另一個則是亞利桑那州立大學計算機科學家 Subbarao(Rao)Kambhampati 近年來圍繞“推理模型”提出的一系列質(zhì)疑。
這篇題為“The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”的論文,通過問題復雜性的視角探討了推理模型的優(yōu)勢與局限性,主要觀點如下:
蘋果論文作者之一 Iman Mirzadeh 表示:我們的觀點并非是“人類毫無局限,而 LRMs 存在局限,因此它們不智能”。只是從它們的思維過程來看,其邏輯性和智能性確實有所欠缺。
Marcus 在一篇題為“A knockout blow for LLMs?”(對 LLMs 的致命一擊?)中表示,LLMs 無法替代精心設計的傳統(tǒng)算法,雖在未來十年內(nèi)仍有編碼、頭腦風暴和寫作等用途,但他認為 LLMs 能直接通往可根本改變社會的 AGI 是不切實際的。
在蘋果年度全球開發(fā)者大會(WWDC)前夕,蘋果公司的處境并不輕松。盡管過去數(shù)月持續(xù)放出關(guān)于人工智能(AI)功能的預告,包括“更聰明的 Siri”即將上線,但承諾尚未兌現(xiàn),技術(shù)展示寥寥,讓蘋果在日益激烈的 AI 競賽中顯得很被動。與此同時,曾一手締造 iPhone 傳奇的前首席設計師 Jony Ive,如今也轉(zhuǎn)而與 OpenAI 合作,外界紛紛質(zhì)疑蘋果是否還可以站在下一輪科技發(fā)展的潮頭。
當前模型存在根本性限制,盡管引入了復雜的自我反思機制,依然無法在超過一定復雜度閾值的問題中表現(xiàn)出可泛化的推理能力。 模型在不同復雜度問題中的表現(xiàn)存在三種分界:在低復雜度問題中標準 LLMs 表現(xiàn)優(yōu)于 LRMs,在中等復雜度問題中 LRMs 占優(yōu),在高復雜度問題中兩者均表現(xiàn)失敗。 研究發(fā)現(xiàn)一個反直覺現(xiàn)象,當問題接近關(guān)鍵復雜度時,模型的推理努力反而減少,這提示 LRMs 可能存在計算能力擴展的內(nèi)在極限。 模型的推理行為呈現(xiàn)復雜度相關(guān)性,在簡單問題上表現(xiàn)為低效的“過度思考”,在復雜問題上則完全無法作答。 LRMs 可能存在可泛化推理的根本性障礙;在執(zhí)行精確計算方面也有局限性。
某些情況下,LLMs 能生成 Python 代碼來“補足”自己的邏輯缺陷,但這僅僅是將問題外包給外部程序邏輯,本身并沒有建立通用解題能力。而最危險的是,它們在簡單場景中(如 4 層漢諾塔)偶然成功,從而誤導人們以為模型具備了可泛化的認知結(jié)構(gòu)。
“漢諾塔”是計算機科學的經(jīng)典入門難題:你需要將一組從大到小排列的圓盤,從左邊的柱子全部搬到右邊,每次只能移動一個盤,且不能把大的疊在小的上面。對于計算機而言,它幾乎是“基礎操作”,任何一本入門教材都能教會學生如何用遞歸算法解決七層漢諾塔。
但是,蘋果的研究也有一些局限性:謎題環(huán)境雖能精細控制問題復雜性,但只能代表推理任務的一個小領(lǐng)域,難以涵蓋現(xiàn)實世界中多樣化和知識密集型的推理問題;大部分實驗依賴對封閉前沿的 LRMs 的黑箱 API 訪問,限制了對其內(nèi)部狀態(tài)和架構(gòu)組件的分析能力;使用確定性的謎題模擬器假設推理可逐步完美驗證,但在結(jié)構(gòu)不嚴謹?shù)念I(lǐng)域,這種精確驗證難以實現(xiàn),限制了該分析方法向更具普遍性的推理領(lǐng)域的應用。Marcus 還指出,實際上,人類在進行漢諾塔游戲時也會出錯,因此單純通過該任務來否定其價值存在一定爭議。
神經(jīng)網(wǎng)絡擅長在“訓練分布”范圍內(nèi)進行歸納和泛化,但一旦脫離這一熟悉的數(shù)據(jù)分布,模型的能力便迅速崩潰。早在 1998 年,他就以多層感知器為例,指出這類神經(jīng)網(wǎng)絡在基礎數(shù)學與語言預測任務中一旦遇到分布外(out-of-distribution)情境,性能大幅下降,這一批判思路貫穿他之后的主要研究。
就像 LLMs 難以穩(wěn)定解出漢諾塔問題一樣,它們在國際象棋、蛋白質(zhì)折疊、數(shù)據(jù)庫查詢等方面也遠遜于現(xiàn)有的專用工具。即使是被廣泛稱贊的 o3 或 Claude 模型,也未必能夠可靠地運行。
https://garymarcus.substack.com/p/a-knockout-blow-for-llms
https://techxplore.com/news/2025-06-apple-pressure-ai-stumble.html
Marcus 說道,那些認為 LLMs 是通往能夠從根本上為社會帶來積極變革的那種 AGI 的直接途徑的人,未免太天真了。這并不意味著神經(jīng)網(wǎng)絡這個領(lǐng)域已經(jīng)死亡,也不意味著深度學習已經(jīng)過時。LLMs 只是深度學習的一種形式,或許其他形式——尤其是那些更善于處理符號的——最終會蓬勃發(fā)展起來。時間會證明一切。但目前這種方法的局限性正日益清晰。
連漢諾塔都解不好,AGI之夢何來?
當前模型存在根本性限制,盡管引入了復雜的自我反思機制,依然無法在超過一定復雜度閾值的問題中表現(xiàn)出可泛化的推理能力。
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
此外,蘋果論文也延續(xù)了 Rao 對“推理模型”(reasoning models)的系統(tǒng)性反思。Rao 指出,許多 LLMs 生成的“思維鏈”(chain of thought)看似嚴密,實則未必反映真實的推理過程。即便模型輸出了一系列“思考步驟”,它的執(zhí)行路徑往往并不與之對應。即它“說”自己這樣推理了,但它其實并沒有這么做。此外,即使推理軌跡邏輯上無懈可擊,模型的最終答案也可能錯誤。Rao 甚至早在蘋果團隊之前,就發(fā)現(xiàn)了 o1 模型存在類似的結(jié)構(gòu)性問題,并在線上發(fā)表了相關(guān)工作。
更讓人無法接受的是,即使直接把標準算法喂給模型,只要求其“照做”,它們依舊無法正確執(zhí)行。這不僅是對“推理模型”名號的質(zhì)疑,更暴露出當前主流大模型在結(jié)構(gòu)性問題上的嚴重不可靠。