當(dāng)前位置: 首頁(yè) > 出行資訊 > 全國(guó) > 正文

wpk客戶端下載:3B超越DeepSeek，大模型終于理解時(shí)間了！Time-R1一統(tǒng)過去/未來/生成

發(fā)布時(shí)間：2025-06-25 來源：

德?lián)淙PP官網(wǎng)提供HHpoker下載IOS安卓蘋果安裝包客戶端正版下載鏈接地址,并提供HHpoker俱樂部加入全聯(lián)盟排名實(shí)力靠譜24小時(shí)營(yíng)業(yè)德?lián)渚銟凡客扑],短牌、奧馬哈、德州牛仔等好玩的HH撲克競(jìng)技!

　　【新智元導(dǎo)讀】Time-R1通過三階段強(qiáng)化學(xué)習(xí)提升模型的時(shí)間推理能力，其核心是動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制，根據(jù)任務(wù)難度和訓(xùn)練進(jìn)程調(diào)整獎(jiǎng)勵(lì)，引導(dǎo)模型逐步提升性能，最終使3B小模型實(shí)現(xiàn)全面時(shí)間推理能力，超越671B模型。

wpk客戶端下載

　　這套獎(jiǎng)勵(lì)機(jī)制的代碼總行數(shù)超過了1200行，每一個(gè)設(shè)計(jì)細(xì)節(jié)，都是在模型試圖「鉆空子」、尋找捷徑時(shí)，針對(duì)性地提出「反制措施」，是無數(shù)次實(shí)驗(yàn)和迭代的結(jié)晶。

wpk客戶端下載

　　根據(jù)任務(wù)難度和訓(xùn)練進(jìn)程，動(dòng)態(tài)調(diào)整日期準(zhǔn)確性獎(jiǎng)勵(lì)部分中的衰減系數(shù)α

　　掩碼時(shí)間實(shí)體補(bǔ)全：獎(jiǎng)勵(lì)綜合事件日期推斷的準(zhǔn)確性和被掩碼實(shí)體（年份或月份）補(bǔ)全的準(zhǔn)確性。特別地，當(dāng)掩碼實(shí)體是「月份」時(shí)，會(huì)計(jì)算預(yù)測(cè)月份與真實(shí)月份之間的「循環(huán)差異」，以更好地捕捉月份的鄰近性。

　　但對(duì)于大語(yǔ)言模型（LLM）來說，它們或許能寫詩(shī)作畫、通曉古今，但在真正理解和運(yùn)用時(shí)間概念時(shí)，卻常常顯得力不從心。

　　(a)階段1通過四個(gè)時(shí)間子任務(wù)進(jìn)行強(qiáng)化微調(diào)，建立時(shí)間觀念的基本理解；(b)階段2在階段1的基礎(chǔ)上進(jìn)一步使用知識(shí)截止時(shí)間后以及合成的數(shù)據(jù)來訓(xùn)練，鍛煉預(yù)測(cè)未來的能力；(c)第3階段直接進(jìn)行創(chuàng)造性未來情景的生成。

　　數(shù)據(jù)集地址：https://huggingface.co/datasets/ulab-ai/Time-Bench

　　訓(xùn)練語(yǔ)料庫(kù)是靜態(tài)的，存在知識(shí)截?cái)鄷r(shí)間；在按非時(shí)間順序的語(yǔ)料訓(xùn)練過程中，跨越不同時(shí)期的時(shí)間信息是同時(shí)處理的，不像人類逐步接收知識(shí)，阻礙了在事件與其對(duì)應(yīng)時(shí)間之間建立可靠的邏輯映射。

　　同時(shí)，工作成果「Attentive Transfer Entropy to Exploit Transient Emergence of Coupling Effect」發(fā)表于人工智能頂會(huì)NeurIPS，并被收錄為「Spotlight」。

　　為了解決從零開始微調(diào)LLM進(jìn)行專門時(shí)間任務(wù)時(shí)的「冷啟動(dòng)」挑戰(zhàn)，并培養(yǎng)模型在難題上的穩(wěn)健表現(xiàn)，研究團(tuán)隊(duì)在第一階段引入了動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制。

　　直播回放：https://b23.tv/aArKNSY

　　第一階段，構(gòu)建「時(shí)間認(rèn)知基石」，通過在四大特訓(xùn)任務(wù)上的強(qiáng)化微調(diào)，建立事件與時(shí)間的精準(zhǔn)映射：時(shí)間戳推理，時(shí)間差計(jì)算，事件排序，時(shí)間實(shí)體補(bǔ)全；

　　模型地址：https://huggingface.co/collections/ulab-ai/time-r1-682626aea47cb2b876285a16

　　長(zhǎng)度與重復(fù)懲罰：懲罰過于冗長(zhǎng)或重復(fù)的輸出，這在實(shí)驗(yàn)中被證明非常有效。該懲罰項(xiàng)綜合考慮了總長(zhǎng)度和多種重復(fù)情況（如連續(xù)詞語(yǔ)重復(fù)、短語(yǔ)重復(fù)、n-gram多樣性不足等）。

　　時(shí)間，是我們?nèi)粘Ｉ钪凶罨A(chǔ)的概念。

　　圖中的結(jié)果也有力的證明了動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制的有效性。

　　https://arxiv.org/abs/2505.13508

　　論文地址：https://arxiv.org/abs/2505.13508

　　Time-R1在面對(duì)未來導(dǎo)向問題的真實(shí)回答。（左）未來事件時(shí)間預(yù)測(cè)；（右）創(chuàng)造性場(chǎng)景生成，輸出與未來發(fā)生的現(xiàn)實(shí)新聞比較。

　　Time-R1的三階段「時(shí)間特調(diào)」

　　Time-R1的成功很大程度上歸功于研究人員為每個(gè)子任務(wù)量身定制的、極其細(xì)致的獎(jiǎng)勵(lì)函數(shù)。

　　特定任務(wù)的精準(zhǔn)「標(biāo)尺」

　　特色動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制：引導(dǎo)模型循序漸進(jìn)

　　1200行代碼，精心打磨的「獎(jiǎng)勵(lì)藝術(shù)」

　　Time-R1第一階段的訓(xùn)練曲線與baselines對(duì)比。紅色：Time-R1，具有三過程動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制。藍(lán)色：沒有動(dòng)態(tài)獎(jiǎng)勵(lì)設(shè)計(jì)的消融實(shí)驗(yàn)。

　　Time-R1的具體實(shí)現(xiàn)由三個(gè)階段組成：

　　小模型的「屠榜時(shí)刻」

　　第二階段，跨越知識(shí)邊界的未來預(yù)測(cè)，在嚴(yán)格隔離未來數(shù)據(jù)的前提下，在階段一得到的模型checkpoint基礎(chǔ)上繼續(xù)強(qiáng)化微調(diào)，讓模型從歷史規(guī)律中自主推演趨勢(shì)；

　　格式遵循獎(jiǎng)勵(lì)：如果輸出格式符合任務(wù)要求（例如日期格式為「YYYY-MM」），則給予少量獎(jiǎng)勵(lì)。這也是準(zhǔn)確性評(píng)分的前提。

　　此任務(wù)中，設(shè)計(jì)了不一致性懲罰（確保推斷順序與推斷日期所指示的順序一致）和多樣性懲罰（懲罰所有推斷日期都相同或日期呈簡(jiǎn)單序列的「平凡解」），鼓勵(lì)模型推斷出更多樣化和真實(shí)的事件日期分布。

　　事件排序：獎(jiǎng)勵(lì)同樣綜合了各事件日期的推斷準(zhǔn)確性和最終排序的準(zhǔn)確性。

　　通過上述精心設(shè)計(jì)，Time-R1在第一階段取得了令人矚目的成績(jī)。

　　時(shí)間戳推斷：獎(jiǎng)勵(lì)基于推斷日期與真實(shí)日期之間的月份差距，采用指數(shù)衰減函數(shù)，其中設(shè)計(jì)一個(gè)衰減系數(shù)α能讓模型感知到其時(shí)間誤差的「大小」，同時(shí)還設(shè)計(jì)了動(dòng)態(tài)調(diào)整機(jī)制。

　　同時(shí)研究團(tuán)隊(duì)實(shí)現(xiàn)了全面開源，不僅發(fā)布了Time-Bench由200000余條的10年紐約時(shí)報(bào)新聞打造的大型多任務(wù)時(shí)間推理數(shù)據(jù)集，還發(fā)布了Time-R1完整訓(xùn)練代碼以及各階段模型檢查點(diǎn)，積極促進(jìn)下一步的研究和發(fā)展。

　　最近，來自伊利諾伊大學(xué)香檳分校的研究人員發(fā)布了一份突破性成果Time-R1，基于一個(gè)僅3B的小模型，通過精心設(shè)計(jì)的三階段的課程強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)理解過去、預(yù)測(cè)未來甚至創(chuàng)造性生成大一統(tǒng)。

　　論文一作劉子嘉是同濟(jì)大學(xué)直博生，導(dǎo)師為嚴(yán)鋼教授，目前在美國(guó)伊利諾伊大學(xué)香檳分校(UIUC)訪問交流，接受Jiaxuan You教授指導(dǎo)，博士期間圍繞論文選題取得一系列成果：

　　博士在讀期間，發(fā)表多篇高水平論文，并被多次引用。

　　時(shí)間差估計(jì)：獎(jiǎng)勵(lì)綜合了兩個(gè)事件日期的推斷準(zhǔn)確性以及它們之間時(shí)間差的準(zhǔn)確性，并引入了不一致性懲。這個(gè)懲罰項(xiàng)用于懲罰模型明確推斷的時(shí)間差與其推斷的兩個(gè)日期所暗示的時(shí)間差之間的矛盾，確保模型輸出的內(nèi)部邏輯自洽。

　　該框架的核心創(chuàng)新在于其精心設(shè)計(jì)地動(dòng)態(tài)的、基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制，像一位經(jīng)驗(yàn)豐富的導(dǎo)師，逐步引導(dǎo)模型掌握時(shí)間的奧秘。

　　標(biāo)簽結(jié)構(gòu)獎(jiǎng)勵(lì)：對(duì)正確使用和等結(jié)構(gòu)標(biāo)簽給予獎(jiǎng)勵(lì)，以鼓勵(lì)「思考鏈」式的推理過程。

　　Time-R1，一個(gè)3B參數(shù)語(yǔ)言模型，通過一種新穎的、精心設(shè)計(jì)的三階段強(qiáng)化學(xué)習(xí)課程和動(dòng)態(tài)獎(jiǎng)勵(lì)系統(tǒng)，實(shí)現(xiàn)了全面的時(shí)間推理能力——涵蓋理解、預(yù)測(cè)和創(chuàng)造性生成，碾壓671B巨無霸模型。

　　第三階段，零樣本創(chuàng)意生成，無需額外訓(xùn)練，直接生成指定未來時(shí)間下合理的推演未來場(chǎng)景。

　　根據(jù)最新的實(shí)驗(yàn)結(jié)果，Time-R1 (3B)在第一階段的基礎(chǔ)時(shí)間理解任務(wù)上，其綜合表現(xiàn)已經(jīng)成功超越了參數(shù)量200多倍的DeepSeek-V3-0324模型（0.647）！

　　接著，在沒有任何微調(diào)的情況下，創(chuàng)造性場(chǎng)景生成任務(wù)中，Time-R1同樣取得了最佳的平均最大相似度得分（衡量生成新聞與真實(shí)新聞的語(yǔ)義相似度），再次超越了所有基線模型，展現(xiàn)了強(qiáng)大的泛化能力，有力地證明了前兩階段訓(xùn)練范式的成功。

　　這個(gè)技術(shù)短板來自于大模型的底層設(shè)計(jì)，無法避免：

　　在頂級(jí)期刊Physical Review X以第一作者發(fā)表「Early predictor for the onset of critical transitions in networked dynamical systems」文章，被頂級(jí)Nature子刊Nature Physics進(jìn)行專門報(bào)道。

　　代碼地址：https://github.com/ulab-uiuc/Time-R1/tree/master

　　這一成功直接解決了大模型領(lǐng)域一個(gè)重要的痛點(diǎn)，并證明了先進(jìn)的、漸進(jìn)式的強(qiáng)化學(xué)習(xí)方法能夠使更小、更高效的模型實(shí)現(xiàn)卓越的時(shí)間性能，為實(shí)現(xiàn)具有巨大應(yīng)用潛力的、真正具備時(shí)間意識(shí)的人工智能提供了一條實(shí)用且可擴(kuò)展的路徑。

　　現(xiàn)有的方案如時(shí)間對(duì)齊、外部知識(shí)庫(kù)等，如同「打補(bǔ)丁」，哪差補(bǔ)哪，始終未能實(shí)現(xiàn)「理解-預(yù)測(cè)-生成」的全鏈路突破。

　　準(zhǔn)確度獎(jiǎng)勵(lì)，是獎(jiǎng)勵(lì)機(jī)制的核心，針對(duì)每個(gè)任務(wù)的特性進(jìn)行設(shè)計(jì)：

　　在有了基礎(chǔ)時(shí)間推理能力后，繼續(xù)訓(xùn)練的Time-R1在未來事件時(shí)間預(yù)測(cè)上取得了最高的平均總得分，在整個(gè)預(yù)測(cè)時(shí)間范圍內(nèi)（2024年8月至2025年2月）持續(xù)優(yōu)于包括DeepSeek-R1和DeepSeek-V3在內(nèi)的大多數(shù)基線模型。

相關(guān)閱讀

推薦圖文

wpk客戶端下載

打進(jìn)扳平進(jìn)球！C羅第87分鐘傷退，被貢薩洛-拉莫斯換下

最新信息

推薦信息

京公網(wǎng)安備 11010702001433號(hào) 京ICP備11022796號(hào)
電腦版 | 手機(jī)版

久久成人国产精品免费软件,国产综合91,国产精品激情在线观看,91热在线,日本午夜天堂,国产自在线,ww8888免费视频

wpk客戶端下載:3B超越DeepSeek，大模型終于理解時(shí)間了！Time-R1一統(tǒng)過去/未來/生成

wpk客戶端下載:3B超越DeepSeek，大模型終于理解時(shí)間了！Time-R1一統(tǒng)過去/未來/生成