wpk打破地域界限,無論你身在何處,只需輕點(diǎn)鼠標(biāo),即可與各地的撲克高手同臺(tái)競(jìng)技。感受不同文化的碰撞。
反之,如果連 8 層漢諾塔都玩不好,那什么“提取地球光錐”或“解構(gòu)物理學(xué)”都將淪為空中樓閣。而更現(xiàn)實(shí)的是,像 o3 這樣的模型實(shí)際上比專注的人類更容易產(chǎn)生幻覺,在繪制可靠的圖表等方面也十分吃力;它們確實(shí)與人類有一些相似的弱點(diǎn),但在許多方面,它們實(shí)際上表現(xiàn)得更差。
此外,蘋果論文也延續(xù)了 Rao 對(duì)“推理模型”(reasoning models)的系統(tǒng)性反思。Rao 指出,許多 LLMs 生成的“思維鏈”(chain of thought)看似嚴(yán)密,實(shí)則未必反映真實(shí)的推理過程。即便模型輸出了一系列“思考步驟”,它的執(zhí)行路徑往往并不與之對(duì)應(yīng)。即它“說”自己這樣推理了,但它其實(shí)并沒有這么做。此外,即使推理軌跡邏輯上無懈可擊,模型的最終答案也可能錯(cuò)誤。Rao 甚至早在蘋果團(tuán)隊(duì)之前,就發(fā)現(xiàn)了 o1 模型存在類似的結(jié)構(gòu)性問題,并在線上發(fā)表了相關(guān)工作。
LLMs不是“通才”,更不是未來萬能鑰匙
https://garymarcus.substack.com/p/a-knockout-blow-for-llms
神經(jīng)網(wǎng)絡(luò)擅長在“訓(xùn)練分布”范圍內(nèi)進(jìn)行歸納和泛化,但一旦脫離這一熟悉的數(shù)據(jù)分布,模型的能力便迅速崩潰。早在 1998 年,他就以多層感知器為例,指出這類神經(jīng)網(wǎng)絡(luò)在基礎(chǔ)數(shù)學(xué)與語言預(yù)測(cè)任務(wù)中一旦遇到分布外(out-of-distribution)情境,性能大幅下降,這一批判思路貫穿他之后的主要研究。
當(dāng)前模型存在根本性限制,盡管引入了復(fù)雜的自我反思機(jī)制,依然無法在超過一定復(fù)雜度閾值的問題中表現(xiàn)出可泛化的推理能力。
某些情況下,LLMs 能生成 Python 代碼來“補(bǔ)足”自己的邏輯缺陷,但這僅僅是將問題外包給外部程序邏輯,本身并沒有建立通用解題能力。而最危險(xiǎn)的是,它們?cè)诤?jiǎn)單場(chǎng)景中(如 4 層漢諾塔)偶然成功,從而誤導(dǎo)人們以為模型具備了可泛化的認(rèn)知結(jié)構(gòu)。
當(dāng)前模型存在根本性限制,盡管引入了復(fù)雜的自我反思機(jī)制,依然無法在超過一定復(fù)雜度閾值的問題中表現(xiàn)出可泛化的推理能力。 模型在不同復(fù)雜度問題中的表現(xiàn)存在三種分界:在低復(fù)雜度問題中標(biāo)準(zhǔn) LLMs 表現(xiàn)優(yōu)于 LRMs,在中等復(fù)雜度問題中 LRMs 占優(yōu),在高復(fù)雜度問題中兩者均表現(xiàn)失敗。 研究發(fā)現(xiàn)一個(gè)反直覺現(xiàn)象,當(dāng)問題接近關(guān)鍵復(fù)雜度時(shí),模型的推理努力反而減少,這提示 LRMs 可能存在計(jì)算能力擴(kuò)展的內(nèi)在極限。 模型的推理行為呈現(xiàn)復(fù)雜度相關(guān)性,在簡(jiǎn)單問題上表現(xiàn)為低效的“過度思考”,在復(fù)雜問題上則完全無法作答。 LRMs 可能存在可泛化推理的根本性障礙;在執(zhí)行精確計(jì)算方面也有局限性。
蘋果的最新論文進(jìn)一步證實(shí)了這一點(diǎn),表明即使是最新一代的“推理模型”也無法解決這一根本性問題。這對(duì)于那些期待 LLMs 通過“推理”或“推理時(shí)計(jì)算”(inference-time compute)來克服這些局限性的人來說,是一個(gè)沉重的打擊。
正是在這一微妙時(shí)刻,蘋果研究團(tuán)隊(duì)發(fā)布了一項(xiàng)顛覆認(rèn)知的新研究,并被紐約大學(xué)心理學(xué)與神經(jīng)科學(xué)教授 Gary Marcus 解讀為對(duì)當(dāng)下大語言模型(LLMs)的“致命一擊”。
“漢諾塔”是計(jì)算機(jī)科學(xué)的經(jīng)典入門難題:你需要將一組從大到小排列的圓盤,從左邊的柱子全部搬到右邊,每次只能移動(dòng)一個(gè)盤,且不能把大的疊在小的上面。對(duì)于計(jì)算機(jī)而言,它幾乎是“基礎(chǔ)操作”,任何一本入門教材都能教會(huì)學(xué)生如何用遞歸算法解決七層漢諾塔。
連漢諾塔都解不好,AGI之夢(mèng)何來?
Marcus 認(rèn)為,AI 的未來應(yīng)該將科學(xué)家級(jí)別的因果推理能力與機(jī)器的計(jì)算速度相結(jié)合,從而在科學(xué)、醫(yī)療、能源等關(guān)鍵領(lǐng)域?qū)崿F(xiàn)真正的突破,才可能讓 AI 對(duì)人類真正有益。
在蘋果年度全球開發(fā)者大會(huì)(WWDC)前夕,蘋果公司的處境并不輕松。盡管過去數(shù)月持續(xù)放出關(guān)于人工智能(AI)功能的預(yù)告,包括“更聰明的 Siri”即將上線,但承諾尚未兌現(xiàn),技術(shù)展示寥寥,讓蘋果在日益激烈的 AI 競(jìng)賽中顯得很被動(dòng)。與此同時(shí),曾一手締造 iPhone 傳奇的前首席設(shè)計(jì)師 Jony Ive,如今也轉(zhuǎn)而與 OpenAI 合作,外界紛紛質(zhì)疑蘋果是否還可以站在下一輪科技發(fā)展的潮頭。
蘋果論文作者之一 Iman Mirzadeh 表示:我們的觀點(diǎn)并非是“人類毫無局限,而 LRMs 存在局限,因此它們不智能”。只是從它們的思維過程來看,其邏輯性和智能性確實(shí)有所欠缺。
LRMs 可能存在可泛化推理的根本性障礙;在執(zhí)行精確計(jì)算方面也有局限性。
就像 LLMs 難以穩(wěn)定解出漢諾塔問題一樣,它們?cè)趪H象棋、蛋白質(zhì)折疊、數(shù)據(jù)庫查詢等方面也遠(yuǎn)遜于現(xiàn)有的專用工具。即使是被廣泛稱贊的 o3 或 Claude 模型,也未必能夠可靠地運(yùn)行。
然而,蘋果團(tuán)隊(duì)的實(shí)驗(yàn)證明,Claude 在處理這個(gè)看似簡(jiǎn)單的邏輯問題時(shí)表現(xiàn)令人失望:7 層準(zhǔn)確率不足 80%,8 層基本崩盤。而備受矚目的 o3-min(high)模型表現(xiàn)同樣平平。
模型在不同復(fù)雜度問題中的表現(xiàn)存在三種分界:在低復(fù)雜度問題中標(biāo)準(zhǔn) LLMs 表現(xiàn)優(yōu)于 LRMs,在中等復(fù)雜度問題中 LRMs 占優(yōu),在高復(fù)雜度問題中兩者均表現(xiàn)失敗。
這篇題為“The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”的論文,通過問題復(fù)雜性的視角探討了推理模型的優(yōu)勢(shì)與局限性,主要觀點(diǎn)如下:
“人類有時(shí)會(huì)犯錯(cuò),往往是因?yàn)橛浶圆惶?;?LLMs 擁有海量的存儲(chǔ)空間,再犯錯(cuò)實(shí)在說不過去。”
研究發(fā)現(xiàn)一個(gè)反直覺現(xiàn)象,當(dāng)問題接近關(guān)鍵復(fù)雜度時(shí),模型的推理努力反而減少,這提示 LRMs 可能存在計(jì)算能力擴(kuò)展的內(nèi)在極限。
https://machinelearning.apple.com/research/illusion-of-thinking
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
LLMs推理看似縝密,實(shí)則在騙人
但是,蘋果的研究也有一些局限性:謎題環(huán)境雖能精細(xì)控制問題復(fù)雜性,但只能代表推理任務(wù)的一個(gè)小領(lǐng)域,難以涵蓋現(xiàn)實(shí)世界中多樣化和知識(shí)密集型的推理問題;大部分實(shí)驗(yàn)依賴對(duì)封閉前沿的 LRMs 的黑箱 API 訪問,限制了對(duì)其內(nèi)部狀態(tài)和架構(gòu)組件的分析能力;使用確定性的謎題模擬器假設(shè)推理可逐步完美驗(yàn)證,但在結(jié)構(gòu)不嚴(yán)謹(jǐn)?shù)念I(lǐng)域,這種精確驗(yàn)證難以實(shí)現(xiàn),限制了該分析方法向更具普遍性的推理領(lǐng)域的應(yīng)用。Marcus 還指出,實(shí)際上,人類在進(jìn)行漢諾塔游戲時(shí)也會(huì)出錯(cuò),因此單純通過該任務(wù)來否定其價(jià)值存在一定爭(zhēng)議。
在 Marcus 看來,蘋果這篇論文從兩個(gè)維度強(qiáng)化了對(duì) LLMs 根本性弱點(diǎn)的批判:一個(gè)是他本人自 1998 年以來不斷強(qiáng)調(diào)的“訓(xùn)練分布邊界問題”,另一個(gè)則是亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)家 Subbarao(Rao)Kambhampati 近年來圍繞“推理模型”提出的一系列質(zhì)疑。
更讓人無法接受的是,即使直接把標(biāo)準(zhǔn)算法喂給模型,只要求其“照做”,它們依舊無法正確執(zhí)行。這不僅是對(duì)“推理模型”名號(hào)的質(zhì)疑,更暴露出當(dāng)前主流大模型在結(jié)構(gòu)性問題上的嚴(yán)重不可靠。
蘋果的這項(xiàng)研究揭示:無論 AGI 的定義如何變化,當(dāng)前主流 LLMs 都無法取代結(jié)構(gòu)明確、邏輯清晰的傳統(tǒng)算法。它們?cè)谔幚砟承?fù)雜任務(wù)時(shí),表現(xiàn)遠(yuǎn)不如幾十年前開發(fā)的專用系統(tǒng)。
模型的推理行為呈現(xiàn)復(fù)雜度相關(guān)性,在簡(jiǎn)單問題上表現(xiàn)為低效的“過度思考”,在復(fù)雜問題上則完全無法作答。
Marcus 在一篇題為“A knockout blow for LLMs?”(對(duì) LLMs 的致命一擊?)中表示,LLMs 無法替代精心設(shè)計(jì)的傳統(tǒng)算法,雖在未來十年內(nèi)仍有編碼、頭腦風(fēng)暴和寫作等用途,但他認(rèn)為 LLMs 能直接通往可根本改變社會(huì)的 AGI 是不切實(shí)際的。
Marcus 說道,那些認(rèn)為 LLMs 是通往能夠從根本上為社會(huì)帶來積極變革的那種 AGI 的直接途徑的人,未免太天真了。這并不意味著神經(jīng)網(wǎng)絡(luò)這個(gè)領(lǐng)域已經(jīng)死亡,也不意味著深度學(xué)習(xí)已經(jīng)過時(shí)。LLMs 只是深度學(xué)習(xí)的一種形式,或許其他形式——尤其是那些更善于處理符號(hào)的——最終會(huì)蓬勃發(fā)展起來。時(shí)間會(huì)證明一切。但目前這種方法的局限性正日益清晰。
https://techxplore.com/news/2025-06-apple-pressure-ai-stumble.html