hhpoker原名德?lián)淙?最新下載地址, 適用于蘋(píng)果安卓華為,客服24H實(shí)時(shí)響應(yīng)多對(duì)一全方位對(duì)接,加入HHPOKER俱樂(lè)部,開(kāi)啟您的VIP德?lián)渲?
上述結(jié)果都表明,這些模型的行為在復(fù)雜性方面存在三種狀態(tài):
最有趣的狀態(tài)是問(wèn)題復(fù)雜度更高的第三種狀態(tài),兩種模型的性能都崩潰為零。
這可以歸因于:(1)復(fù)雜性不斷增加,需要更復(fù)雜的推理過(guò)程,從而揭示思維模型在更復(fù)雜問(wèn)題上的真正優(yōu)勢(shì);或者(2)在較新的基準(zhǔn)(尤其是 AIME25)中數(shù)據(jù)污染減少。有趣的是,人類在 AIME25 上的表現(xiàn)實(shí)際上高于 AIME24,這表明 AIME25 的復(fù)雜度可能較低。然而,模型在 AIME25 上的表現(xiàn)比 AIME24 更差 —— 這可能表明在前沿 LRM 的訓(xùn)練過(guò)程中存在數(shù)據(jù)污染。
在這篇論文的作者中,共同一作為 Parshin Shojaee,她現(xiàn)在為 Virginia Tech 三年級(jí)博士生,且為蘋(píng)果的研究實(shí)習(xí)生。另一位共一 Iman Mirzadeh 為蘋(píng)果的 ML 研究工程師。此外,Yoshua Bengio 的兄弟 Samy Bengio 也參與了這項(xiàng)工作,他現(xiàn)為蘋(píng)果的 AI 和機(jī)器學(xué)習(xí)研究高級(jí)總監(jiān)。
OpenAI 的員工也湊起了熱鬧,表示「這波對(duì)蘋(píng)果研究的深挖很棒。」
然而近日,蘋(píng)果團(tuán)隊(duì)的一篇論文對(duì) LLM 的推理能力提出了質(zhì)疑,并提出了自己的觀點(diǎn) ——像 DeepSeek-R1、o3-mini 這類模型實(shí)際上根本沒(méi)有進(jìn)行推理,只是很擅長(zhǎng)記憶模式罷了
這些發(fā)現(xiàn)凸顯了現(xiàn)有 LRM 的優(yōu)勢(shì)和局限性,并對(duì)這些系統(tǒng)中推理的屬性提出了質(zhì)疑,這對(duì)它們的設(shè)計(jì)和部署具有重要意義。
至少對(duì)于 Sonnet 來(lái)說(shuō),一旦問(wèn)題規(guī)模超過(guò) 7 個(gè)圓盤(pán),它就不會(huì)嘗試進(jìn)行推理。它會(huì)陳述問(wèn)題本身以及求解算法,然后輸出解決方案,甚至不會(huì)考慮每個(gè)步驟。
有人認(rèn)為蘋(píng)果的研究具有誤導(dǎo)性,他們只測(cè)試了 DeepSeek R1 和 Claude 3.7。雖然其他模型可能會(huì)失敗,但說(shuō)「ALL 推理模型失敗是不公平的。
實(shí)證研究揭示了關(guān)于當(dāng)前推理模型(LRM)的幾個(gè)關(guān)鍵發(fā)現(xiàn):
這些結(jié)果都表明,雖然推理模型延緩了這種崩潰,但它們最終也會(huì)遇到與非推理模型相同的根本限制。
這些謎題:(1) 對(duì)復(fù)雜性進(jìn)行細(xì)粒度控制;(2) 避免現(xiàn)有基準(zhǔn)中常見(jiàn)的污染;(3) 僅需明確提供的規(guī)則,強(qiáng)調(diào)算法推理;(4) 支持基于模擬器的嚴(yán)格評(píng)估,從而實(shí)現(xiàn)精確的解決方案檢查和詳細(xì)的故障分析。
本文實(shí)驗(yàn)是在推理模型及其對(duì)應(yīng)的非推理模型上進(jìn)行的,例如 Claude 3.7 Sonnet(thinking/non-thinking)和 DeepSeek-R1/V3。
目前,我們尚不清楚近期基于強(qiáng)化學(xué)習(xí)的思維模型所觀察到的性能提升是歸因于「更多接觸已建立的數(shù)學(xué)基準(zhǔn)數(shù)據(jù)」,還是歸因于「分配給思維 token 的顯著更高的推理計(jì)算能力」,又或是歸因于「基于強(qiáng)化學(xué)習(xí)的訓(xùn)練所開(kāi)發(fā)的推理能力」?
復(fù)雜性如何影響模型推理?
在問(wèn)題復(fù)雜度較低的第一種狀態(tài)下,本文觀察到非推理模型能夠獲得與推理模型相當(dāng)甚至更好的性能。
總結(jié)來(lái)說(shuō),這項(xiàng)工作的貢獻(xiàn)包括如下:
本文還發(fā)現(xiàn)推理模型最初會(huì)隨著問(wèn)題復(fù)雜度成比例地增加思維 Token 使用量。然而,當(dāng)接近臨界閾值(該閾值與其準(zhǔn)確率崩潰點(diǎn)高度吻合)時(shí),盡管問(wèn)題難度持續(xù)增加,模型卻會(huì)反直覺(jué)地減少推理投入。這一現(xiàn)象在 o3-mini 系列變體中最為顯著,而在 Claude-3.7-Sonnet(思維版)模型中相對(duì)較輕。值得注意的是,盡管這些模型的推理生成長(zhǎng)度遠(yuǎn)未達(dá)到上限,且擁有充足的推理計(jì)算預(yù)算,但隨著問(wèn)題復(fù)雜度提升,它們卻未能有效利用思維階段額外的計(jì)算資源。這種行為表明,當(dāng)前推理模型的思維能力相對(duì)于問(wèn)題復(fù)雜度存在根本性的擴(kuò)展局限。
漢諾塔謎題(Tower of Hanoi)包含三個(gè)樁子和 n 個(gè)大小不同的圓盤(pán),這些圓盤(pán)按大小順序(最大的在底部)堆疊在第一個(gè)樁子上。目標(biāo)是將所有圓盤(pán)從第一個(gè)樁子移動(dòng)到第三個(gè)樁子。有效的移動(dòng)方式包括一次只移動(dòng)一個(gè)圓盤(pán)、只取樁子頂部的圓盤(pán),以及永遠(yuǎn)不要將較大的圓盤(pán)放在較小的圓盤(pán)上。此任務(wù)的難度可以通過(guò)初始圓盤(pán)的數(shù)量來(lái)控制,因?yàn)槌跏紙A盤(pán)數(shù)量為 n 時(shí)所需的最小移動(dòng)次數(shù)為 2^n ? 1。然而,在本研究中,蘋(píng)果不對(duì)最終解決方案的最優(yōu)性進(jìn)行評(píng)分,而只衡量每次移動(dòng)的正確性以及是否達(dá)到目標(biāo)狀態(tài)。
最近的研究通過(guò)比較基于強(qiáng)化學(xué)習(xí)的思維模型與其非思維標(biāo)準(zhǔn) LLM 對(duì)應(yīng)的上限能力 (pass@k),利用已建立的數(shù)學(xué)基準(zhǔn)探索了這個(gè)問(wèn)題。他們表明,在相同的推理 token 預(yù)算下,非思維 LLM) 最終可以在 MATH500 和 AIME24 等基準(zhǔn)測(cè)試中達(dá)到與思維模型相當(dāng)?shù)男阅堋?/p>
首先,盡管這些模型通過(guò)強(qiáng)化學(xué)習(xí)習(xí)得了復(fù)雜的自我反思機(jī)制,但它們未能發(fā)展出適用于規(guī)劃任務(wù)的泛化問(wèn)題解決能力,其性能在超過(guò)一定復(fù)雜度閾值后會(huì)崩盤(pán)至零。
基于推理軌跡的分析進(jìn)一步驗(yàn)證了前文所述的三種復(fù)雜度模式,如圖 7a 所示。
參考鏈接:https://x.com/scaling01/status/1931783050511126954
在復(fù)雜度適中的第二種狀態(tài)下,能夠生成長(zhǎng)思維鏈的推理模型的優(yōu)勢(shì)開(kāi)始顯現(xiàn),推理、非推理模型之間的性能差距開(kāi)始擴(kuò)大。
對(duì)于蘋(píng)果的這項(xiàng)研究,有人表示如果真是這樣,那又如何解釋 o3-preview 在 ARC 基準(zhǔn)測(cè)試上的表現(xiàn)呢?
積木世界(Blocks World)是一個(gè)積木堆疊難題,要求將積木從初始配置重新排列成指定的目標(biāo)配置。目標(biāo)是找到完成此轉(zhuǎn)換所需的最少移動(dòng)次數(shù)。有效移動(dòng)僅限于任何堆疊的最頂層積木,該積木可以放置在空堆疊上或另一個(gè)積木之上。此任務(wù)的復(fù)雜性可以通過(guò)存在的積木數(shù)量來(lái)控制。
此外,蘋(píng)果論文對(duì)游戲復(fù)雜性的解讀也非常令人困惑 僅僅因?yàn)闈h諾塔謎題需要的步數(shù)比其他塔多得多,而其他的只需要二次或線性更多的步數(shù),這并不意味著漢諾塔謎題更難。
為了研究問(wèn)題復(fù)雜性對(duì)推理行為的影響,本文在可控謎題環(huán)境中開(kāi)展了推理與非推理模型對(duì)的對(duì)比實(shí)驗(yàn),比如 Claude-3.7-Sonnet(thinking/non-thinking)和 DeepSeek(R1/V3)。
所有模型在圓盤(pán)數(shù)量超過(guò) 13 個(gè)時(shí)準(zhǔn)確率都將為 0,這僅僅是因?yàn)樗鼈儫o(wú)法輸出那么多!
最后,蘋(píng)果對(duì)中間推理軌跡或思維的分析揭示了與復(fù)雜性相關(guān)的模式:在較簡(jiǎn)單的問(wèn)題中,推理模型通常會(huì)盡早識(shí)別出正確的解決方案,但會(huì)低效地繼續(xù)探索錯(cuò)誤的替代方案 —— 這是一種「過(guò)度思考」現(xiàn)象。在中等復(fù)雜度下,正確的解決方案只有在廣泛探索錯(cuò)誤路徑后才會(huì)出現(xiàn)。超過(guò)一定的復(fù)雜度閾值,模型將完全無(wú)法找到正確的解決方案(圖 1 右下)。這表明 LRM 具有有限的自我修正能力,雖然很有價(jià)值,但也暴露出其根本的效率低下和明顯的擴(kuò)展限制。
對(duì)于簡(jiǎn)單問(wèn)題(低復(fù)雜度):推理模型通常在思維早期就能找到正確解(綠色分布),但隨后持續(xù)探索錯(cuò)誤解(紅色分布)。值得注意的是,與正確的解決方案(綠色)相比,錯(cuò)誤解決方案(紅色)的分布更傾向于思維的末端。這種現(xiàn)象,在文獻(xiàn)中被稱為過(guò)度思考(overthinking),導(dǎo)致了計(jì)算的浪費(fèi)。
我們接下來(lái)看蘋(píng)果這篇文章如何得出這一結(jié)論的:
你至少需要 2^N - 1 步,并且輸出格式要求每步包含 10 個(gè) token 以及一些常量。
當(dāng)前,AI 的「推理」能力已經(jīng)在以 DeepSeek-R1、OpenAI o1/o3、Claude 3.7 Sonnet 為代表的推理大模型中得到了驗(yàn)證,它們顯示出了非常類人的思考過(guò)程。
過(guò)河(River Crossing)是一個(gè)約束滿足規(guī)劃難題,涉及 n 個(gè)參與者及其對(duì)應(yīng)的 n 個(gè)代理,他們必須乘船過(guò)河。目標(biāo)是將所有 2n 個(gè)個(gè)體從左岸運(yùn)送到右岸。船最多可載 k 個(gè)人,且不能空載。當(dāng)參與者與另一個(gè)代理在一起而沒(méi)有自己的代理時(shí),會(huì)出現(xiàn)無(wú)效情況,因?yàn)槊總€(gè)代理都必須保護(hù)其客戶免受競(jìng)爭(zhēng)代理的侵害。此任務(wù)的復(fù)雜性也可以通過(guò)存在的參與者 / 代理對(duì)的數(shù)量來(lái)控制。當(dāng) n = 2 或 n = 3 對(duì)時(shí),使用船容量 k = 2;當(dāng)對(duì)數(shù)較大時(shí),使用 k = 3。
蘋(píng)果從問(wèn)題復(fù)雜性的角度探究前沿推理模型(LRM)的推理機(jī)制,沒(méi)有采用用標(biāo)準(zhǔn)基準(zhǔn)(例如數(shù)學(xué)問(wèn)題),而是采用可控的謎題環(huán)境,通過(guò)調(diào)整謎題元素并保留核心邏輯,系統(tǒng)地改變復(fù)雜度,并檢驗(yàn)解決方案和內(nèi)部推理(圖 1 頂部)。
蘋(píng)果還對(duì)前沿的 LRM 進(jìn)行了比較分析,例如 Claude-3.7-Sonnet(有思維 vs. 無(wú)思維)和 DeepSeek(R1 vs V3)。結(jié)果如圖 2 所示,在 MATH500 數(shù)據(jù)集上,當(dāng)提供相同的推理 token 預(yù)算時(shí),思維模型的 pass@k 性能與非思維模型相當(dāng)。然而,蘋(píng)果觀察到這種性能差距在 AIME24 基準(zhǔn)上有所擴(kuò)大,在 AIME25 上進(jìn)一步擴(kuò)大。這種不斷擴(kuò)大的差距帶來(lái)了解釋上的挑戰(zhàn)。
最后,對(duì)于復(fù)雜度更高的問(wèn)題,會(huì)出現(xiàn)崩潰,這意味著模型無(wú)法在思維中生成任何正確的解決方案。
有趣的是,這些模型在每次移動(dòng)時(shí)都有 X% 的概率選出正確的 token。即使有 99.99% 的概率,由于問(wèn)題規(guī)模呈指數(shù)級(jí)增長(zhǎng),模型最終也會(huì)出錯(cuò)。
最大可解規(guī)模且沒(méi)有任何推理空間:DeepSeek:12 個(gè)圓盤(pán);Sonnet 3.7 和 o3-mini:13 個(gè)圓盤(pán)。如果你仔細(xì)觀察模型的輸出,就會(huì)發(fā)現(xiàn),如果問(wèn)題規(guī)模過(guò)大,它們甚至不會(huì)進(jìn)行推理。
有人還表示,如果這波分析沒(méi)錯(cuò)的話,那蘋(píng)果的研究將沒(méi)有意義。
鑒于這些不合理的觀察結(jié)果以及數(shù)學(xué)基準(zhǔn)不允許對(duì)問(wèn)題復(fù)雜性進(jìn)行控制操縱的事實(shí),蘋(píng)果轉(zhuǎn)向了能夠進(jìn)行更精確和系統(tǒng)實(shí)驗(yàn)的謎題環(huán)境。
這位用戶直言不諱地稱這項(xiàng)工作為「胡說(shuō)八道」,模型實(shí)際上不是受限于推理能力,而是輸出 token 的限制造成的。
當(dāng)問(wèn)題變得稍微復(fù)雜時(shí),這種趨勢(shì)就會(huì)逆轉(zhuǎn):模型首先探索不正確的解決方案,然后再得出正確的解決方案。此時(shí)錯(cuò)誤解(紅色)的分布位置相較于正確解(綠色)明顯下移。
接下來(lái),本文又研究了不同推理模型在問(wèn)題復(fù)雜度變化時(shí)的效果。測(cè)試模型包括 o3-mini(中 / 高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B 以及 Claude-3.7-Sonnet(thinking)。
圖 6 表明,所有推理模型在面對(duì)復(fù)雜度變化時(shí)都呈現(xiàn)出相似的模式:隨著問(wèn)題復(fù)雜度的提升,模型準(zhǔn)確率逐漸下降,直至超過(guò)模型特定的復(fù)雜度閾值后完全崩潰(準(zhǔn)確率歸零)。
簡(jiǎn)單來(lái)說(shuō),這位用戶的觀點(diǎn)就是:所有模型在圓盤(pán)數(shù)量超過(guò)13個(gè)時(shí)準(zhǔn)確率降至0,僅僅是因?yàn)樗鼈儫o(wú)法輸出那么多。
推理模型令人困惑的行為
為了更深入地理解推理模型的思考過(guò)程,本文對(duì)模型推理軌跡進(jìn)行了細(xì)粒度分析。重點(diǎn)關(guān)注 Claude-3.7-Sonnet-Thinking。
作為補(bǔ)充,圖 5 在相同推理 token 計(jì)算量下(所有謎題平均值),呈現(xiàn)了這些模型對(duì)的性能上限(pass@k)。
蘋(píng)果評(píng)估了 LRM 推理在四個(gè)可控謎題上的性能,這些謎題涵蓋了組合深度、規(guī)劃復(fù)雜度和分布設(shè)置。謎題如下圖 3 所示。
還有人(x 用戶 @scaling01)復(fù)現(xiàn)了蘋(píng)果論文中的漢諾塔謎題及使用的精確prompt,有了一些有趣的發(fā)現(xiàn):
論文標(biāo)題:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
由于移動(dòng)次數(shù)太多,則將解釋求解算法,而不是逐一列出所有 32,767 個(gè)移動(dòng)次數(shù)。
圖 4 展示了兩類模型在所有謎題環(huán)境中隨問(wèn)題復(fù)雜度變化的準(zhǔn)確率。
跳棋(Checker Jumping)是一個(gè)一維謎題,將紅色棋子、藍(lán)色棋子和一個(gè)空格排成一條線。目標(biāo)是交換所有紅色和藍(lán)色棋子的位置,有效地鏡像初始配置。有效的移動(dòng)包括將棋子滑入相鄰的空位,或跳過(guò)恰好一個(gè)相反顏色的棋子落入空位。在謎題過(guò)程中,任何棋子都不能后退。該任務(wù)的復(fù)雜性可以通過(guò)棋子的數(shù)量來(lái)控制:如果棋子數(shù)量為 2n,則所需的最小移動(dòng)次數(shù)為 (n + 1)^2 ? 1。
如圖 8a 和 8b 所示,在漢諾塔環(huán)境中,即使本文在提示中提供算法 —— 以便模型只需要執(zhí)行規(guī)定的步驟 —— 模型性能也不會(huì)提高,并且觀察到的崩潰仍然發(fā)生在同一點(diǎn)左右。
其次,蘋(píng)果在等效推理計(jì)算條件下對(duì) LRM 和標(biāo)準(zhǔn) LLM 進(jìn)行了比較,揭示了三種不同的推理機(jī)制(圖 1 底部)。其中對(duì)于更簡(jiǎn)單、低組合性的問(wèn)題,標(biāo)準(zhǔn) LLM 表現(xiàn)出更高的效率和準(zhǔn)確性。隨著問(wèn)題復(fù)雜度的適度增加,思維模型會(huì)獲得優(yōu)勢(shì)。然而,當(dāng)問(wèn)題達(dá)到高復(fù)雜度且組合深度更長(zhǎng)時(shí),兩種模型類型的性能都會(huì)完全崩潰(圖 1 左下)。值得注意的是,接近這個(gè)崩潰點(diǎn)時(shí),盡管 LRM 的運(yùn)行速度遠(yuǎn)低于代數(shù)限制,但隨著問(wèn)題復(fù)雜度的增加,它們開(kāi)始減少推理工作量(以推理時(shí)間 token 衡量)(圖 1 中下)。這表明,相對(duì)于問(wèn)題復(fù)雜度,LRM 的推理能力在推理時(shí)間尺度上存在根本的限制。
相關(guān)的一則推文在 x 上的閱讀量已經(jīng)突破了 1000 萬(wàn)。
對(duì)當(dāng)前基于既定數(shù)學(xué)基準(zhǔn)的 LRM 評(píng)估范式提出質(zhì)疑,并利用算法謎題環(huán)境設(shè)計(jì)了一個(gè)可控的實(shí)驗(yàn)平臺(tái),該環(huán)境能夠根據(jù)問(wèn)題復(fù)雜性進(jìn)行可控的實(shí)驗(yàn)。實(shí)驗(yàn)表明,最先進(jìn)的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能開(kāi)發(fā)出可泛化的問(wèn)題解決能力。在不同環(huán)境中,當(dāng)復(fù)雜度超過(guò)一定水平時(shí),準(zhǔn)確率最終會(huì)降至零。蘋(píng)果發(fā)現(xiàn) LRM 的推理能力在問(wèn)題復(fù)雜性方面存在一個(gè)擴(kuò)展極限,這一點(diǎn)可以從思維 token 在達(dá)到某個(gè)復(fù)雜性點(diǎn)后呈現(xiàn)的反直覺(jué)下降趨勢(shì)中看出。蘋(píng)果質(zhì)疑當(dāng)前基于最終準(zhǔn)確率的評(píng)估范式,并借助確定性謎題模擬器將評(píng)估范圍擴(kuò)展到思維軌跡的中間解。分析表明,隨著問(wèn)題復(fù)雜度的增加,正確的解會(huì)系統(tǒng)性地出現(xiàn)在思維的后期,而錯(cuò)誤的解則不然,這為理解推理模型 (LRM) 中的自我修正機(jī)制提供了定量層面的見(jiàn)解。蘋(píng)果發(fā)現(xiàn) LRM 在執(zhí)行精確計(jì)算方面存在一些令人驚訝的局限性,包括它們無(wú)法從顯式算法中獲益,以及它們?cè)诓煌i題類型之間的推理不一致。
此外,Sonnet 3.7 的輸出限制為 128k,DeepSeek R1 為 64k,o3-mini 為 100k。這包括它們?cè)谳敵鲎罱K答案之前使用的推理 token!
此外,在圖 8c 和 8d 中,本文觀察到 Claude 3.7 Sonnet thinking 模型表現(xiàn)出截然不同的行為模式。該模型在提出的解決方案中首次出現(xiàn)錯(cuò)誤的時(shí)間往往較晚,而在過(guò)河謎題中,該模型僅能生成有效解直至第 4 步。值得注意的是,該模型在解決需要 31 步的問(wèn)題(N=5)時(shí)能達(dá)到近乎完美的準(zhǔn)確率,卻無(wú)法解決僅需 11 步的過(guò)河謎題(N=3)。這可能表明網(wǎng)絡(luò)上 N>2 的過(guò)河謎題范例較為稀缺,意味著 LRMs 在訓(xùn)練過(guò)程中可能較少接觸或記憶此類實(shí)例。
推理模型的思維內(nèi)部發(fā)生了什么?