久久成人国产精品免费软件,国产综合91,国产精品激情在线观看,91热在线,日本午夜天堂,国产自在线,ww8888免费视频

 
當前位置: 首頁 > 出行資訊 > 全國 > 正文

WPK安卓蘋果下載:AdaCM2:首個面向超長視頻理解的跨模態(tài)自適應(yīng)記憶壓縮框架

發(fā)布時間:2025-06-25  來源:

WEpoker官網(wǎng)提供WPK(微撲克)APP正版最新安卓IOS蘋果下載地址鏈接。WPK通過先進的加密技術(shù)和嚴格的監(jiān)管措施,WEpoker確保每一次對局都公平公正,讓您的每一分投入都安心無憂

AdaCM2 的提出,為多模態(tài)模型賦予了「可控的長時記憶能力」。這一能力不僅適用于傳統(tǒng)的視頻理解任務(wù),還對以下未來應(yīng)用場景具有重要意義:

WPK安卓蘋果下載

為應(yīng)對長視頻帶來的內(nèi)存挑戰(zhàn),AdaCM2 首次引入了跨模態(tài)注意力驅(qū)動的層級記憶壓縮策略。其核心思想是:「僅保留那些對文本提示最有意義的視覺信息」,并通過跨層級的策略自適應(yīng)完成壓縮,確保模型不丟關(guān)鍵信息。

WPK安卓蘋果下載

為此,來自得克薩斯大學(xué)阿靈頓分校(UTA)計算機系研究團隊提出了AdaCM2:首個支持超長視頻理解的跨模態(tài)記憶壓縮框架。該研究已被CVPR 2025 正式接收,并榮獲Highlight 論文(接收率為 3%),展示出其在技術(shù)創(chuàng)新與實際價值上的雙重突破。

在長視頻的任意一幀中,只有極少數(shù)視覺 Token 對當前文本提示具有強相關(guān)性。絕大多數(shù)視覺信息對于回答文本問題(如「她在和誰說話?」)是無關(guān)的。實驗發(fā)現(xiàn),這些注意力得分呈現(xiàn)出尾部偏置分布,意味著高價值信息集中在少數(shù) Token 中。

提出動機:兩大關(guān)鍵觀察揭示「壓縮冗余」的機會

研究還發(fā)現(xiàn),在深層網(wǎng)絡(luò)中,臨近幀之間的跨模態(tài)注意力相似度非常高,甚至在間隔較遠的幀之間也存在冗余。這種高相似性意味著:多個 Token 在不同時間或不同層次上表達了重復(fù)的語義信息。

智能交通監(jiān)控:支持對全天候視頻的智能分析與摘要生成;醫(yī)療手術(shù)記錄分析:自動分析長時間術(shù)中操作行為;教育與會議記錄理解:提取關(guān)鍵片段并生成總結(jié);機器人感知:支持具備持續(xù)視覺記憶的具身智能體。

應(yīng)用前景:多模態(tài)大模型的「長時記憶」引擎

多模態(tài)視頻理解模型如 VideoLLaMA、VideoChat 等已經(jīng)在短視頻(5–15 秒)場景中表現(xiàn)優(yōu)異,能夠回答關(guān)于視頻內(nèi)容的自然語言問題。但當視頻長度擴展至分鐘級甚至小時級,模型的顯存瓶頸和冗余信息干擾問題暴露無遺:

觀察二:層間語義冗余性(Layer-Wise Redundancy)

本文第一作者為前阿里巴巴達摩院高級技術(shù)專家,現(xiàn)一年級博士研究生滿遠斌,研究方向為高效多模態(tài)大模型推理和生成系統(tǒng)。通信作者為第一作者的導(dǎo)師,UTA 計算機系助理教授尹淼。尹淼博士目前帶領(lǐng) 7 人的研究團隊,主要研究方向為多模態(tài)空間智能系統(tǒng),致力于通過軟件和系統(tǒng)的聯(lián)合優(yōu)化設(shè)計實現(xiàn)空間人工智能的落地。

該論文已被 CVPR 2025 接收并評為 Highlight 論文,充分體現(xiàn)其在長視頻多模態(tài)建模領(lǐng)域的前瞻性與影響力。更多相關(guān)研究成果也即將在未來發(fā)布,敬請關(guān)注!

AdaCM2 作為首個專注于極長視頻理解的跨模態(tài)記憶壓縮框架,在大語言模型和視覺編碼器之間架起了一座高效的信息篩選橋梁。它不僅優(yōu)化了計算資源利用率,還拓展了多模態(tài) AI 在實際應(yīng)用中的邊界。隨著多模態(tài)大模型逐步走向落地,AdaCM2 的提出無疑將成為推動長視頻智能理解發(fā)展的關(guān)鍵技術(shù)。

AdaCM2 正是為解決這些核心問題而生。

實驗結(jié)果:性能超越 SOTA + 顯存下降 65%

論文標題:AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction論文地址:https://arxiv.org/pdf/2411.12593

近年來,大語言模型(LLM)持續(xù)刷新著多模態(tài)理解的邊界。當語言模型具備了「看視頻」的能力,視頻問答、視頻摘要和字幕生成等任務(wù)正逐步邁入真正的智能階段。但一個現(xiàn)實難題亟待解決——如何高效理解超長視頻?

背景:LLM 強大,長視頻理解卻步

觀察一:幀內(nèi)注意力稀疏性(Intra-Frame Sparsity)

AdaCM2 的提出建立在對視頻與文本交互過程中的兩個核心觀察基礎(chǔ)上,揭示了現(xiàn)有模型在超長視頻場景下的內(nèi)在局限:

與 LLM 無縫對接:AdaCM2 支持與各種主流 LLM 對接,如 Vicuna-7B、FlanT5 等,僅需輕量微調(diào) Q-Former 模塊即可完成端到端訓(xùn)練。

啟發(fā):可以有選擇性地僅保留「重要的」視覺 Token,而無需一視同仁處理全部幀內(nèi)容。

啟發(fā):應(yīng)該在不同層次上使用差異化的壓縮策略,從而動態(tài)平衡信息保留與內(nèi)存占用。

創(chuàng)新:AdaCM2 提出跨模態(tài)動態(tài)壓縮機制

逐幀回歸式建模:AdaCM2 不再一次性輸入全部幀,而是逐幀處理并動態(tài)更新記憶緩存,實現(xiàn)輕量但語義連續(xù)的建模。跨模態(tài)注意力打分:通過 Q-Former 模塊,模型在每一層中計算視覺 Token 與文本提示之間的注意力權(quán)重,只保留注意力得分高的「關(guān)鍵信息 Token」。分層壓縮機制:針對不同 Transformer 層中 Token 的冗余程度,設(shè)置可調(diào)的壓縮參數(shù)(α 和 β),實現(xiàn)更精細的內(nèi)存控制。

AdaCM2 在多個長視頻標準數(shù)據(jù)集上進行了驗證,包括:

這兩大觀察構(gòu)成了 AdaCM2 設(shè)計的基礎(chǔ),驅(qū)動出一整套可調(diào)、可解釋、可擴展的「視頻記憶管理機制」。

內(nèi)存消耗呈指數(shù)級上升,難以部署;視覺 Token 冗余嚴重,導(dǎo)致關(guān)鍵信息被淹沒;文本與視頻之間缺乏精準對齊機制。

LVU 分類任務(wù):平均 Top-1 準確率提升 4.5%,在「導(dǎo)演」「場景」等任務(wù)上領(lǐng)先所有方法;COIN / Breakfast 行為理解任務(wù):超過 MA-LMM,展示更強泛化能力;MSVD 視頻字幕生成:達到 189.4 CIDEr,領(lǐng)先現(xiàn)有 SOTA;內(nèi)存效率:顯存使用下降 65%,在極端情況下依舊維持穩(wěn)定推理,支持處理超 2 小時長視頻。

消融研究也顯示,若移除跨模態(tài)壓縮模塊或?qū)⑵涮鎿Q為隨機丟棄,模型性能將顯著下降,證明觀察驅(qū)動設(shè)計的有效性。

 
相關(guān)閱讀
 
推薦圖文
最新信息
推薦信息
Copyright © 2012 - 2020 交通出行網(wǎng) 版權(quán)所有
京公網(wǎng)安備 11010702001433號 京ICP備11022796號

電腦版 | 手機版