久久成人国产精品免费软件,国产综合91,国产精品激情在线观看,91热在线,日本午夜天堂,国产自在线,ww8888免费视频

 
當(dāng)前位置: 首頁 > 出行資訊 > 全國 > 正文

HHPOKER蘋果IOS下載:質(zhì)疑DeepSeek-R1、Claude Thinking不會推理!蘋果爭議論文翻車?

發(fā)布時間:2025-06-26  來源:

HHpoker官網(wǎng)是一款線上能打德州的棋牌競技平臺,本站提供官方版HHpokerApp下載網(wǎng)址,有HHpoker安卓版官方下載和HHpokerios最新版本下載鏈接,Depu Circle改名叫HHpoker,推薦加入全聯(lián)盟實力靠譜俱樂部,全天客服大小全級別優(yōu)質(zhì)牌局俱樂部免費送上桌金幣,HHpoker您的德?lián)浼s局神器軟件。

接下來,本文又研究了不同推理模型在問題復(fù)雜度變化時的效果。測試模型包括 o3-mini(中 / 高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B 以及 Claude-3.7-Sonnet(thinking)。

HHPOKER蘋果IOS下載

最有趣的狀態(tài)是問題復(fù)雜度更高的第三種狀態(tài),兩種模型的性能都崩潰為零。

HHPOKER蘋果IOS下載

為了研究問題復(fù)雜性對推理行為的影響,本文在可控謎題環(huán)境中開展了推理與非推理模型對的對比實驗,比如 Claude-3.7-Sonnet(thinking/non-thinking)和 DeepSeek(R1/V3)。

論文標(biāo)題:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

總結(jié)來說,這項工作的貢獻(xiàn)包括如下:

還有人(x 用戶 @scaling01)復(fù)現(xiàn)了蘋果論文中的漢諾塔謎題及使用的精確prompt,有了一些有趣的發(fā)現(xiàn):

對當(dāng)前基于既定數(shù)學(xué)基準(zhǔn)的 LRM 評估范式提出質(zhì)疑,并利用算法謎題環(huán)境設(shè)計了一個可控的實驗平臺,該環(huán)境能夠根據(jù)問題復(fù)雜性進(jìn)行可控的實驗。實驗表明,最先進(jìn)的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能開發(fā)出可泛化的問題解決能力。在不同環(huán)境中,當(dāng)復(fù)雜度超過一定水平時,準(zhǔn)確率最終會降至零。蘋果發(fā)現(xiàn) LRM 的推理能力在問題復(fù)雜性方面存在一個擴(kuò)展極限,這一點可以從思維 token 在達(dá)到某個復(fù)雜性點后呈現(xiàn)的反直覺下降趨勢中看出。蘋果質(zhì)疑當(dāng)前基于最終準(zhǔn)確率的評估范式,并借助確定性謎題模擬器將評估范圍擴(kuò)展到思維軌跡的中間解。分析表明,隨著問題復(fù)雜度的增加,正確的解會系統(tǒng)性地出現(xiàn)在思維的后期,而錯誤的解則不然,這為理解推理模型 (LRM) 中的自我修正機(jī)制提供了定量層面的見解。蘋果發(fā)現(xiàn) LRM 在執(zhí)行精確計算方面存在一些令人驚訝的局限性,包括它們無法從顯式算法中獲益,以及它們在不同謎題類型之間的推理不一致。

圖 6 表明,所有推理模型在面對復(fù)雜度變化時都呈現(xiàn)出相似的模式:隨著問題復(fù)雜度的提升,模型準(zhǔn)確率逐漸下降,直至超過模型特定的復(fù)雜度閾值后完全崩潰(準(zhǔn)確率歸零)。

所有模型在圓盤數(shù)量超過 13 個時準(zhǔn)確率都將為 0,這僅僅是因為它們無法輸出那么多!

如圖 8a 和 8b 所示,在漢諾塔環(huán)境中,即使本文在提示中提供算法 —— 以便模型只需要執(zhí)行規(guī)定的步驟 —— 模型性能也不會提高,并且觀察到的崩潰仍然發(fā)生在同一點左右。

漢諾塔謎題(Tower of Hanoi)包含三個樁子和 n 個大小不同的圓盤,這些圓盤按大小順序(最大的在底部)堆疊在第一個樁子上。目標(biāo)是將所有圓盤從第一個樁子移動到第三個樁子。有效的移動方式包括一次只移動一個圓盤、只取樁子頂部的圓盤,以及永遠(yuǎn)不要將較大的圓盤放在較小的圓盤上。此任務(wù)的難度可以通過初始圓盤的數(shù)量來控制,因為初始圓盤數(shù)量為 n 時所需的最小移動次數(shù)為 2^n ? 1。然而,在本研究中,蘋果不對最終解決方案的最優(yōu)性進(jìn)行評分,而只衡量每次移動的正確性以及是否達(dá)到目標(biāo)狀態(tài)。

鑒于這些不合理的觀察結(jié)果以及數(shù)學(xué)基準(zhǔn)不允許對問題復(fù)雜性進(jìn)行控制操縱的事實,蘋果轉(zhuǎn)向了能夠進(jìn)行更精確和系統(tǒng)實驗的謎題環(huán)境。

在這篇論文的作者中,共同一作為 Parshin Shojaee,她現(xiàn)在為 Virginia Tech 三年級博士生,且為蘋果的研究實習(xí)生。另一位共一 Iman Mirzadeh 為蘋果的 ML 研究工程師。此外,Yoshua Bengio 的兄弟 Samy Bengio 也參與了這項工作,他現(xiàn)為蘋果的 AI 和機(jī)器學(xué)習(xí)研究高級總監(jiān)。

首先,盡管這些模型通過強(qiáng)化學(xué)習(xí)習(xí)得了復(fù)雜的自我反思機(jī)制,但它們未能發(fā)展出適用于規(guī)劃任務(wù)的泛化問題解決能力,其性能在超過一定復(fù)雜度閾值后會崩盤至零。

蘋果還對前沿的 LRM 進(jìn)行了比較分析,例如 Claude-3.7-Sonnet(有思維 vs. 無思維)和 DeepSeek(R1 vs V3)。結(jié)果如圖 2 所示,在 MATH500 數(shù)據(jù)集上,當(dāng)提供相同的推理 token 預(yù)算時,思維模型的 pass@k 性能與非思維模型相當(dāng)。然而,蘋果觀察到這種性能差距在 AIME24 基準(zhǔn)上有所擴(kuò)大,在 AIME25 上進(jìn)一步擴(kuò)大。這種不斷擴(kuò)大的差距帶來了解釋上的挑戰(zhàn)。

此外,蘋果論文對游戲復(fù)雜性的解讀也非常令人困惑 僅僅因為漢諾塔謎題需要的步數(shù)比其他塔多得多,而其他的只需要二次或線性更多的步數(shù),這并不意味著漢諾塔謎題更難。

然而近日,蘋果團(tuán)隊的一篇論文對 LLM 的推理能力提出了質(zhì)疑,并提出了自己的觀點 ——像 DeepSeek-R1、o3-mini 這類模型實際上根本沒有進(jìn)行推理,只是很擅長記憶模式罷了

在復(fù)雜度適中的第二種狀態(tài)下,能夠生成長思維鏈的推理模型的優(yōu)勢開始顯現(xiàn),推理、非推理模型之間的性能差距開始擴(kuò)大。

對于簡單問題(低復(fù)雜度):推理模型通常在思維早期就能找到正確解(綠色分布),但隨后持續(xù)探索錯誤解(紅色分布)。值得注意的是,與正確的解決方案(綠色)相比,錯誤解決方案(紅色)的分布更傾向于思維的末端。這種現(xiàn)象,在文獻(xiàn)中被稱為過度思考(overthinking),導(dǎo)致了計算的浪費。

最大可解規(guī)模且沒有任何推理空間:DeepSeek:12 個圓盤;Sonnet 3.7 和 o3-mini:13 個圓盤。如果你仔細(xì)觀察模型的輸出,就會發(fā)現(xiàn),如果問題規(guī)模過大,它們甚至不會進(jìn)行推理。

蘋果評估了 LRM 推理在四個可控謎題上的性能,這些謎題涵蓋了組合深度、規(guī)劃復(fù)雜度和分布設(shè)置。謎題如下圖 3 所示。

跳棋(Checker Jumping)是一個一維謎題,將紅色棋子、藍(lán)色棋子和一個空格排成一條線。目標(biāo)是交換所有紅色和藍(lán)色棋子的位置,有效地鏡像初始配置。有效的移動包括將棋子滑入相鄰的空位,或跳過恰好一個相反顏色的棋子落入空位。在謎題過程中,任何棋子都不能后退。該任務(wù)的復(fù)雜性可以通過棋子的數(shù)量來控制:如果棋子數(shù)量為 2n,則所需的最小移動次數(shù)為 (n + 1)^2 ? 1。

此外,在圖 8c 和 8d 中,本文觀察到 Claude 3.7 Sonnet thinking 模型表現(xiàn)出截然不同的行為模式。該模型在提出的解決方案中首次出現(xiàn)錯誤的時間往往較晚,而在過河謎題中,該模型僅能生成有效解直至第 4 步。值得注意的是,該模型在解決需要 31 步的問題(N=5)時能達(dá)到近乎完美的準(zhǔn)確率,卻無法解決僅需 11 步的過河謎題(N=3)。這可能表明網(wǎng)絡(luò)上 N>2 的過河謎題范例較為稀缺,意味著 LRMs 在訓(xùn)練過程中可能較少接觸或記憶此類實例。

作為補(bǔ)充,圖 5 在相同推理 token 計算量下(所有謎題平均值),呈現(xiàn)了這些模型對的性能上限(pass@k)。

本文還發(fā)現(xiàn)推理模型最初會隨著問題復(fù)雜度成比例地增加思維 Token 使用量。然而,當(dāng)接近臨界閾值(該閾值與其準(zhǔn)確率崩潰點高度吻合)時,盡管問題難度持續(xù)增加,模型卻會反直覺地減少推理投入。這一現(xiàn)象在 o3-mini 系列變體中最為顯著,而在 Claude-3.7-Sonnet(思維版)模型中相對較輕。值得注意的是,盡管這些模型的推理生成長度遠(yuǎn)未達(dá)到上限,且擁有充足的推理計算預(yù)算,但隨著問題復(fù)雜度提升,它們卻未能有效利用思維階段額外的計算資源。這種行為表明,當(dāng)前推理模型的思維能力相對于問題復(fù)雜度存在根本性的擴(kuò)展局限。

本文實驗是在推理模型及其對應(yīng)的非推理模型上進(jìn)行的,例如 Claude 3.7 Sonnet(thinking/non-thinking)和 DeepSeek-R1/V3。

當(dāng)問題變得稍微復(fù)雜時,這種趨勢就會逆轉(zhuǎn):模型首先探索不正確的解決方案,然后再得出正確的解決方案。此時錯誤解(紅色)的分布位置相較于正確解(綠色)明顯下移。

這位用戶直言不諱地稱這項工作為「胡說八道」,模型實際上不是受限于推理能力,而是輸出 token 的限制造成的。

此外,Sonnet 3.7 的輸出限制為 128k,DeepSeek R1 為 64k,o3-mini 為 100k。這包括它們在輸出最終答案之前使用的推理 token!

上述結(jié)果都表明,這些模型的行為在復(fù)雜性方面存在三種狀態(tài):

簡單來說,這位用戶的觀點就是:所有模型在圓盤數(shù)量超過13個時準(zhǔn)確率降至0,僅僅是因為它們無法輸出那么多。

你至少需要 2^N - 1 步,并且輸出格式要求每步包含 10 個 token 以及一些常量。

在問題復(fù)雜度較低的第一種狀態(tài)下,本文觀察到非推理模型能夠獲得與推理模型相當(dāng)甚至更好的性能。

圖 4 展示了兩類模型在所有謎題環(huán)境中隨問題復(fù)雜度變化的準(zhǔn)確率。

這些發(fā)現(xiàn)凸顯了現(xiàn)有 LRM 的優(yōu)勢和局限性,并對這些系統(tǒng)中推理的屬性提出了質(zhì)疑,這對它們的設(shè)計和部署具有重要意義。

這些謎題:(1) 對復(fù)雜性進(jìn)行細(xì)粒度控制;(2) 避免現(xiàn)有基準(zhǔn)中常見的污染;(3) 僅需明確提供的規(guī)則,強(qiáng)調(diào)算法推理;(4) 支持基于模擬器的嚴(yán)格評估,從而實現(xiàn)精確的解決方案檢查和詳細(xì)的故障分析。

我們接下來看蘋果這篇文章如何得出這一結(jié)論的:

積木世界(Blocks World)是一個積木堆疊難題,要求將積木從初始配置重新排列成指定的目標(biāo)配置。目標(biāo)是找到完成此轉(zhuǎn)換所需的最少移動次數(shù)。有效移動僅限于任何堆疊的最頂層積木,該積木可以放置在空堆疊上或另一個積木之上。此任務(wù)的復(fù)雜性可以通過存在的積木數(shù)量來控制。

有趣的是,這些模型在每次移動時都有 X% 的概率選出正確的 token。即使有 99.99% 的概率,由于問題規(guī)模呈指數(shù)級增長,模型最終也會出錯。

推理模型的思維內(nèi)部發(fā)生了什么?

復(fù)雜性如何影響模型推理?

當(dāng)前,AI 的「推理」能力已經(jīng)在以 DeepSeek-R1、OpenAI o1/o3、Claude 3.7 Sonnet 為代表的推理大模型中得到了驗證,它們顯示出了非常類人的思考過程。

過河(River Crossing)是一個約束滿足規(guī)劃難題,涉及 n 個參與者及其對應(yīng)的 n 個代理,他們必須乘船過河。目標(biāo)是將所有 2n 個個體從左岸運送到右岸。船最多可載 k 個人,且不能空載。當(dāng)參與者與另一個代理在一起而沒有自己的代理時,會出現(xiàn)無效情況,因為每個代理都必須保護(hù)其客戶免受競爭代理的侵害。此任務(wù)的復(fù)雜性也可以通過存在的參與者 / 代理對的數(shù)量來控制。當(dāng) n = 2 或 n = 3 對時,使用船容量 k = 2;當(dāng)對數(shù)較大時,使用 k = 3。

這些結(jié)果都表明,雖然推理模型延緩了這種崩潰,但它們最終也會遇到與非推理模型相同的根本限制。

有人還表示,如果這波分析沒錯的話,那蘋果的研究將沒有意義。

基于推理軌跡的分析進(jìn)一步驗證了前文所述的三種復(fù)雜度模式,如圖 7a 所示。

最后,蘋果對中間推理軌跡或思維的分析揭示了與復(fù)雜性相關(guān)的模式:在較簡單的問題中,推理模型通常會盡早識別出正確的解決方案,但會低效地繼續(xù)探索錯誤的替代方案 —— 這是一種「過度思考」現(xiàn)象。在中等復(fù)雜度下,正確的解決方案只有在廣泛探索錯誤路徑后才會出現(xiàn)。超過一定的復(fù)雜度閾值,模型將完全無法找到正確的解決方案(圖 1 右下)。這表明 LRM 具有有限的自我修正能力,雖然很有價值,但也暴露出其根本的效率低下和明顯的擴(kuò)展限制。

參考鏈接:https://x.com/scaling01/status/1931783050511126954

推理模型令人困惑的行為

蘋果從問題復(fù)雜性的角度探究前沿推理模型(LRM)的推理機(jī)制,沒有采用用標(biāo)準(zhǔn)基準(zhǔn)(例如數(shù)學(xué)問題),而是采用可控的謎題環(huán)境,通過調(diào)整謎題元素并保留核心邏輯,系統(tǒng)地改變復(fù)雜度,并檢驗解決方案和內(nèi)部推理(圖 1 頂部)。

實證研究揭示了關(guān)于當(dāng)前推理模型(LRM)的幾個關(guān)鍵發(fā)現(xiàn):

其次,蘋果在等效推理計算條件下對 LRM 和標(biāo)準(zhǔn) LLM 進(jìn)行了比較,揭示了三種不同的推理機(jī)制(圖 1 底部)。其中對于更簡單、低組合性的問題,標(biāo)準(zhǔn) LLM 表現(xiàn)出更高的效率和準(zhǔn)確性。隨著問題復(fù)雜度的適度增加,思維模型會獲得優(yōu)勢。然而,當(dāng)問題達(dá)到高復(fù)雜度且組合深度更長時,兩種模型類型的性能都會完全崩潰(圖 1 左下)。值得注意的是,接近這個崩潰點時,盡管 LRM 的運行速度遠(yuǎn)低于代數(shù)限制,但隨著問題復(fù)雜度的增加,它們開始減少推理工作量(以推理時間 token 衡量)(圖 1 中下)。這表明,相對于問題復(fù)雜度,LRM 的推理能力在推理時間尺度上存在根本的限制。

對于蘋果的這項研究,有人表示如果真是這樣,那又如何解釋 o3-preview 在 ARC 基準(zhǔn)測試上的表現(xiàn)呢?

至少對于 Sonnet 來說,一旦問題規(guī)模超過 7 個圓盤,它就不會嘗試進(jìn)行推理。它會陳述問題本身以及求解算法,然后輸出解決方案,甚至不會考慮每個步驟。

最后,對于復(fù)雜度更高的問題,會出現(xiàn)崩潰,這意味著模型無法在思維中生成任何正確的解決方案。

相關(guān)的一則推文在 x 上的閱讀量已經(jīng)突破了 1000 萬。

這可以歸因于:(1)復(fù)雜性不斷增加,需要更復(fù)雜的推理過程,從而揭示思維模型在更復(fù)雜問題上的真正優(yōu)勢;或者(2)在較新的基準(zhǔn)(尤其是 AIME25)中數(shù)據(jù)污染減少。有趣的是,人類在 AIME25 上的表現(xiàn)實際上高于 AIME24,這表明 AIME25 的復(fù)雜度可能較低。然而,模型在 AIME25 上的表現(xiàn)比 AIME24 更差 —— 這可能表明在前沿 LRM 的訓(xùn)練過程中存在數(shù)據(jù)污染。

由于移動次數(shù)太多,則將解釋求解算法,而不是逐一列出所有 32,767 個移動次數(shù)。

有人認(rèn)為蘋果的研究具有誤導(dǎo)性,他們只測試了 DeepSeek R1 和 Claude 3.7。雖然其他模型可能會失敗,但說「ALL 推理模型失敗是不公平的。

目前,我們尚不清楚近期基于強(qiáng)化學(xué)習(xí)的思維模型所觀察到的性能提升是歸因于「更多接觸已建立的數(shù)學(xué)基準(zhǔn)數(shù)據(jù)」,還是歸因于「分配給思維 token 的顯著更高的推理計算能力」,又或是歸因于「基于強(qiáng)化學(xué)習(xí)的訓(xùn)練所開發(fā)的推理能力」?

為了更深入地理解推理模型的思考過程,本文對模型推理軌跡進(jìn)行了細(xì)粒度分析。重點關(guān)注 Claude-3.7-Sonnet-Thinking。

OpenAI 的員工也湊起了熱鬧,表示「這波對蘋果研究的深挖很棒?!?/p>

最近的研究通過比較基于強(qiáng)化學(xué)習(xí)的思維模型與其非思維標(biāo)準(zhǔn) LLM 對應(yīng)的上限能力 (pass@k),利用已建立的數(shù)學(xué)基準(zhǔn)探索了這個問題。他們表明,在相同的推理 token 預(yù)算下,非思維 LLM) 最終可以在 MATH500 和 AIME24 等基準(zhǔn)測試中達(dá)到與思維模型相當(dāng)?shù)男阅堋?/p>

 
相關(guān)閱讀
 
推薦圖文
最新信息
推薦信息
Copyright © 2012 - 2020 交通出行網(wǎng) 版權(quán)所有
京公網(wǎng)安備 11010702001433號 京ICP備11022796號

電腦版 | 手機(jī)版