久久成人国产精品免费软件,国产综合91,国产精品激情在线观看,91热在线,日本午夜天堂,国产自在线,ww8888免费视频

 
當(dāng)前位置: 首頁 > 出行資訊 > 全國 > 正文

wepoker俱樂部:打破跨模態(tài)干擾,快手東北大學(xué)聯(lián)合提出統(tǒng)一多模態(tài)框架

發(fā)布時間:2025-06-25  來源:

HHpoker官網(wǎng)是一款線上能打德州的棋牌競技平臺,本站提供官方版HHpokerApp下載網(wǎng)址,有HHpoker安卓版官方下載和HHpokerios最新版本下載鏈接,Depu Circle改名叫HHpoker,推薦加入全聯(lián)盟實力靠譜俱樂部,全天客服大小全級別優(yōu)質(zhì)牌局俱樂部免費送上桌金幣,HHpoker您的德?lián)浼s局神器軟件。

模態(tài)感知對比學(xué)習(xí),緩解跨模態(tài)干擾

wepoker俱樂部

其中是第個候選樣本,是溫度系數(shù)。

wepoker俱樂部

但這種方式不能區(qū)分模態(tài)組合,例如,一個query的正樣本為文本模態(tài),但其負(fù)樣本可能是圖像、視頻或者其他模態(tài)組合。這可能導(dǎo)致模型用圖像來學(xué)文本相似度,產(chǎn)生模態(tài)沖突。

接下來引入模態(tài)掩碼矩陣,用于標(biāo)記候選樣本與正樣本模態(tài)是否一致:

在傳統(tǒng)InfoNCE損失下,模型會嘗試最大化正樣本對之間的相似度,并最小化其與負(fù)樣本之間的相似度:

這類任務(wù)需要模型理解長文本、復(fù)雜邏輯或多階段指令,研究認(rèn)為,Text–Text數(shù)據(jù)提升了語言理解與邏輯構(gòu)建能力,而Text–Image數(shù)據(jù)提供精準(zhǔn)的視覺語義映射,利于模態(tài)對齊。

給定一個批次中個query,每個query()對應(yīng)一個正樣本和個負(fù)樣本,構(gòu)造相似度矩陣:

它從數(shù)據(jù)策劃與訓(xùn)練機制兩個關(guān)鍵視角出發(fā),用對比學(xué)習(xí)的機制重新定義了統(tǒng)一多模態(tài)表示學(xué)習(xí)的范式。

在細(xì)粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。

UNITE 7B在CaReBench上分別達(dá)到86.0,86.9,86.5,84.8,52.4,55.4。

在多模態(tài)檢索任務(wù)中,不同模態(tài)(文本、圖像、視頻)天然存在分布差異。

UNITE的核心目標(biāo),就是構(gòu)建一個能同時處理文本、圖像、視頻及其融合模態(tài)輸入的統(tǒng)一嵌入器。

如果在訓(xùn)練時將所有模態(tài)混合進(jìn)行對比學(xué)習(xí),會導(dǎo)致表示空間產(chǎn)生語義扭曲或干擾噪聲,影響模型對各模態(tài)語義的準(zhǔn)確建模。

多個評測中斬獲最佳成績

視頻-文本檢索方面,UNITE的2B模型在CaReBench三個子任務(wù)(General/Spatial/Temporal)中的General和Spatial里超越了前SOTA,7B模型以顯著領(lǐng)先水平刷新當(dāng)前最好表現(xiàn)。

多模態(tài)檢索是信息理解與獲取的關(guān)鍵技術(shù),但其中的跨模態(tài)干擾問題一直是一大難題。

在合成視頻檢索任務(wù)CoVR上,UNITE 2B和UNITE 7B達(dá)到了69.1和72.5,均明顯領(lǐng)先于現(xiàn)有SOTA模型(60.1)。

這一步確保在計算損失時,僅考慮模態(tài)一致的樣本。

檢索適應(yīng)階段,使用text-text、text-image、text-video等多模態(tài)數(shù)據(jù)訓(xùn)練模型的基本檢索能力,同時引入高粒度視頻-文本數(shù)據(jù),顯著提升模型的細(xì)粒度區(qū)分能力;指令微調(diào)階段,基于MMEB、CoVR等復(fù)雜多模態(tài)指令任務(wù)訓(xùn)練,增強模型的指令遵循能力和擴(kuò)展性。

為了解決這一挑戰(zhàn),UNITE團(tuán)隊提出了Modal-Aware Masked Contrastive Learning(MAMCL)這一對比學(xué)習(xí)機制,能顯著緩解跨模態(tài)“相互干擾”。

最后,細(xì)粒度Text-Video樣本的添加策略影響巨大,直接在第一階段“檢索適應(yīng)”中融合細(xì)粒度視頻-文本樣本,能帶來整體性能最優(yōu)解,相比傳統(tǒng)“先對齊后微調(diào)”的做法更加有效且高效。

一是視頻-文本數(shù)據(jù)具備“統(tǒng)一模態(tài)”的核心能力。

為了平衡泛化能力與判別能力,UNITE采用了“檢索適應(yīng) + 指令微調(diào)”的兩階段訓(xùn)練方案:

具體來說,在涵蓋分類、VQA、檢索、定位四類任務(wù)共36個數(shù)據(jù)集的MMEB Benchmark中,UNITE 7B達(dá)到了最優(yōu)性能70.3,超越了更大規(guī)模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。

論文鏈接:https://arxiv.org/pdf/2505.19650 代碼鏈接:https://github.com/friedrichor/UNITE 項目鏈接:https://friedrichor.github.io/projects/UNITE 模型/數(shù)據(jù)鏈接:https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

然后,構(gòu)造模態(tài)感知掩碼相似度矩陣:

MAMCL的核心思想是模態(tài)掩碼約束,也就是只在與當(dāng)前query目標(biāo)模態(tài)一致的負(fù)樣本中進(jìn)行對比,從而避免模態(tài)間的錯誤競爭。

最終,MAMCL損失定義為(p是當(dāng)前query對應(yīng)的正樣本索引):

盡管視頻-文本對數(shù)據(jù)在一般檢索任務(wù)中表現(xiàn)出色,但在復(fù)雜檢索指令跟隨類任務(wù)(如MMEB、CoVR)中,其優(yōu)勢反而不明顯。

另外在實驗過程當(dāng)中,作者還有三個關(guān)鍵發(fā)現(xiàn)。

在細(xì)粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。

為驗證其通用性,團(tuán)隊還在多個標(biāo)準(zhǔn)跨模態(tài)檢索任務(wù)上進(jìn)行了評估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任務(wù)上,展現(xiàn)了良好的通用表征能力。

其中表示提取候選樣本的模態(tài)標(biāo)簽(例如 text, image, video, text+video)。

二是指令類任務(wù)更依賴文本主導(dǎo)的數(shù)據(jù)支撐——

具體來說,視頻-文本對數(shù)據(jù)在所有配置中表現(xiàn)最為突出,不僅在視頻檢索任務(wù)中遙遙領(lǐng)先(如MSR-VTT、MSVD),甚至在圖文檢索任務(wù)中也超越了基于圖像-文本對訓(xùn)練的模型。

圖像-文本檢索任務(wù)中,在ShareGPT4V、Urban1K和DOCCI上,UNITE顯著超越E5-V和VLM2Vec等模型;

更多方法和實驗細(xì)節(jié),請參照論文。

UNITE團(tuán)隊 投稿 量子位 | 公眾號 QbitAI

綜合來看,UNITE支持文本、圖像、視頻及融合模態(tài)內(nèi)容,并展現(xiàn)了綜合最優(yōu)性能。

可行的解決辦法是構(gòu)建一種統(tǒng)一的多模態(tài)表示方式,為此,來自快手與東北大學(xué)的研究人員推出了多模態(tài)統(tǒng)一嵌入框架——UNITE。

指令檢索任務(wù)里,作者的UNITE系列模型也在多個數(shù)據(jù)集上表現(xiàn)出色。

 
相關(guān)閱讀
 
推薦圖文
最新信息
推薦信息
Copyright © 2012 - 2020 交通出行網(wǎng) 版權(quán)所有
京公網(wǎng)安備 11010702001433號 京ICP備11022796號

電腦版 | 手機版