當(dāng)前位置: 首頁(yè) > 出行資訊 > 全國(guó) > 正文

WPKAPP:打破跨模態(tài)干擾，快手東北大學(xué)聯(lián)合提出統(tǒng)一多模態(tài)框架

發(fā)布時(shí)間：2025-06-25 來(lái)源：

德?lián)淙PP官網(wǎng)提供HHpoker下載IOS安卓蘋果安裝包客戶端正版下載鏈接地址,并提供HHpoker俱樂部加入全聯(lián)盟排名實(shí)力靠譜24小時(shí)營(yíng)業(yè)德?lián)渚銟凡客扑],短牌、奧馬哈、德州牛仔等好玩的HH撲克競(jìng)技!

盡管視頻-文本對(duì)數(shù)據(jù)在一般檢索任務(wù)中表現(xiàn)出色，但在復(fù)雜檢索指令跟隨類任務(wù)（如MMEB、CoVR）中，其優(yōu)勢(shì)反而不明顯。

WPKAPP

論文鏈接：https://arxiv.org/pdf/2505.19650 代碼鏈接：https://github.com/friedrichor/UNITE 項(xiàng)目鏈接：https://friedrichor.github.io/projects/UNITE 模型/數(shù)據(jù)鏈接：https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

WPKAPP

最后，細(xì)粒度Text-Video樣本的添加策略影響巨大，直接在第一階段“檢索適應(yīng)”中融合細(xì)粒度視頻-文本樣本，能帶來(lái)整體性能最優(yōu)解，相比傳統(tǒng)“先對(duì)齊后微調(diào)”的做法更加有效且高效。

這一步確保在計(jì)算損失時(shí)，僅考慮模態(tài)一致的樣本。

在傳統(tǒng)InfoNCE損失下，模型會(huì)嘗試最大化正樣本對(duì)之間的相似度，并最小化其與負(fù)樣本之間的相似度：

UNITE 7B在CaReBench上分別達(dá)到86.0，86.9，86.5，84.8，52.4，55.4。

多個(gè)評(píng)測(cè)中斬獲最佳成績(jī)

二是指令類任務(wù)更依賴文本主導(dǎo)的數(shù)據(jù)支撐——

為了解決這一挑戰(zhàn)，UNITE團(tuán)隊(duì)提出了Modal-Aware Masked Contrastive Learning（MAMCL）這一對(duì)比學(xué)習(xí)機(jī)制，能顯著緩解跨模態(tài)“相互干擾”。

為了平衡泛化能力與判別能力，UNITE采用了“檢索適應(yīng) + 指令微調(diào)”的兩階段訓(xùn)練方案：

在多模態(tài)檢索任務(wù)中，不同模態(tài)（文本、圖像、視頻）天然存在分布差異。

最終，MAMCL損失定義為（p是當(dāng)前query對(duì)應(yīng)的正樣本索引）：

具體來(lái)說，在涵蓋分類、VQA、檢索、定位四類任務(wù)共36個(gè)數(shù)據(jù)集的MMEB Benchmark中，UNITE 7B達(dá)到了最優(yōu)性能70.3，超越了更大規(guī)模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。

給定一個(gè)批次中個(gè)query，每個(gè)query（）對(duì)應(yīng)一個(gè)正樣本和個(gè)負(fù)樣本，構(gòu)造相似度矩陣：

為驗(yàn)證其通用性，團(tuán)隊(duì)還在多個(gè)標(biāo)準(zhǔn)跨模態(tài)檢索任務(wù)上進(jìn)行了評(píng)估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任務(wù)上，展現(xiàn)了良好的通用表征能力。

模態(tài)感知對(duì)比學(xué)習(xí)，緩解跨模態(tài)干擾

圖像-文本檢索任務(wù)中，在ShareGPT4V、Urban1K和DOCCI上，UNITE顯著超越E5-V和VLM2Vec等模型；

但這種方式不能區(qū)分模態(tài)組合，例如，一個(gè)query的正樣本為文本模態(tài)，但其負(fù)樣本可能是圖像、視頻或者其他模態(tài)組合。這可能導(dǎo)致模型用圖像來(lái)學(xué)文本相似度，產(chǎn)生模態(tài)沖突。

在細(xì)粒度檢索、指令檢索等多個(gè)評(píng)測(cè)中，UNITE框架都斬獲了最佳成績(jī)。

綜合來(lái)看，UNITE支持文本、圖像、視頻及融合模態(tài)內(nèi)容，并展現(xiàn)了綜合最優(yōu)性能。

MAMCL的核心思想是模態(tài)掩碼約束，也就是只在與當(dāng)前query目標(biāo)模態(tài)一致的負(fù)樣本中進(jìn)行對(duì)比，從而避免模態(tài)間的錯(cuò)誤競(jìng)爭(zhēng)。

可行的解決辦法是構(gòu)建一種統(tǒng)一的多模態(tài)表示方式，為此，來(lái)自快手與東北大學(xué)的研究人員推出了多模態(tài)統(tǒng)一嵌入框架——UNITE。

它從數(shù)據(jù)策劃與訓(xùn)練機(jī)制兩個(gè)關(guān)鍵視角出發(fā)，用對(duì)比學(xué)習(xí)的機(jī)制重新定義了統(tǒng)一多模態(tài)表示學(xué)習(xí)的范式。

具體來(lái)說，視頻-文本對(duì)數(shù)據(jù)在所有配置中表現(xiàn)最為突出，不僅在視頻檢索任務(wù)中遙遙領(lǐng)先（如MSR-VTT、MSVD），甚至在圖文檢索任務(wù)中也超越了基于圖像-文本對(duì)訓(xùn)練的模型。

如果在訓(xùn)練時(shí)將所有模態(tài)混合進(jìn)行對(duì)比學(xué)習(xí)，會(huì)導(dǎo)致表示空間產(chǎn)生語(yǔ)義扭曲或干擾噪聲，影響模型對(duì)各模態(tài)語(yǔ)義的準(zhǔn)確建模。

視頻-文本檢索方面，UNITE的2B模型在CaReBench三個(gè)子任務(wù)（General/Spatial/Temporal）中的General和Spatial里超越了前SOTA，7B模型以顯著領(lǐng)先水平刷新當(dāng)前最好表現(xiàn)。

檢索適應(yīng)階段，使用text-text、text-image、text-video等多模態(tài)數(shù)據(jù)訓(xùn)練模型的基本檢索能力，同時(shí)引入高粒度視頻-文本數(shù)據(jù)，顯著提升模型的細(xì)粒度區(qū)分能力；指令微調(diào)階段，基于MMEB、CoVR等復(fù)雜多模態(tài)指令任務(wù)訓(xùn)練，增強(qiáng)模型的指令遵循能力和擴(kuò)展性。

指令檢索任務(wù)里，作者的UNITE系列模型也在多個(gè)數(shù)據(jù)集上表現(xiàn)出色。

接下來(lái)引入模態(tài)掩碼矩陣，用于標(biāo)記候選樣本與正樣本模態(tài)是否一致：

這類任務(wù)需要模型理解長(zhǎng)文本、復(fù)雜邏輯或多階段指令，研究認(rèn)為，Text–Text數(shù)據(jù)提升了語(yǔ)言理解與邏輯構(gòu)建能力，而Text–Image數(shù)據(jù)提供精準(zhǔn)的視覺語(yǔ)義映射，利于模態(tài)對(duì)齊。

然后，構(gòu)造模態(tài)感知掩碼相似度矩陣:

UNITE的核心目標(biāo)，就是構(gòu)建一個(gè)能同時(shí)處理文本、圖像、視頻及其融合模態(tài)輸入的統(tǒng)一嵌入器。

UNITE團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI

更多方法和實(shí)驗(yàn)細(xì)節(jié)，請(qǐng)參照論文。

一是視頻-文本數(shù)據(jù)具備“統(tǒng)一模態(tài)”的核心能力。

在細(xì)粒度檢索、指令檢索等多個(gè)評(píng)測(cè)中，UNITE框架都斬獲了最佳成績(jī)。

其中表示提取候選樣本的模態(tài)標(biāo)簽（例如 text, image, video, text+video）。

其中是第個(gè)候選樣本，是溫度系數(shù)。

另外在實(shí)驗(yàn)過程當(dāng)中，作者還有三個(gè)關(guān)鍵發(fā)現(xiàn)。

在合成視頻檢索任務(wù)CoVR上，UNITE 2B和UNITE 7B達(dá)到了69.1和72.5，均明顯領(lǐng)先于現(xiàn)有SOTA模型(60.1)。

多模態(tài)檢索是信息理解與獲取的關(guān)鍵技術(shù)，但其中的跨模態(tài)干擾問題一直是一大難題。