av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 用"難題負(fù)樣本"教大型視覺語言模型如何讀懂幾何圖形——清華大學(xué)開發(fā)全新對比學(xué)習(xí)方法提升幾何推理能力

用"難題負(fù)樣本"教大型視覺語言模型如何讀懂幾何圖形——清華大學(xué)開發(fā)全新對比學(xué)習(xí)方法提升幾何推理能力

2025-05-29 16:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 16:17 ? 科技行者

在多模態(tài)人工智能領(lǐng)域,幾何數(shù)學(xué)推理一直是衡量大型多模態(tài)模型(LMM)能力的重要指標(biāo)。然而,即使是當(dāng)前最先進(jìn)的模型如GPT-4o、Claude-3和Qwen2.5-VL,在處理幾何問題時仍然會出現(xiàn)幻覺,比如憑空創(chuàng)造不存在的幾何元素或錯誤理解空間關(guān)系。這一現(xiàn)象引起了清華大學(xué)研究團(tuán)隊的關(guān)注。由孫凱、白宇時、楊震、張家杰、齊冀、侯磊和李娟子組成的研究小組于2025年5月在arXiv(arXiv:2505.20152v1)上發(fā)表了一篇題為《Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models》的研究論文,提出了一種創(chuàng)新的硬負(fù)樣本對比學(xué)習(xí)框架,顯著提升了大型多模態(tài)模型在幾何理解和推理方面的能力。

想象一下,如果你正在教一個孩子識別不同的幾何圖形。你可能會先展示一個正方形,并告訴他"這是正方形"。但僅僅知道正方形的樣子是不夠的,孩子還需要學(xué)會辨別什么不是正方形——比如長方形、菱形等相似但有區(qū)別的圖形。這就是"負(fù)樣本學(xué)習(xí)"的基本思想。而在這項研究中,清華團(tuán)隊采用了類似的方法,但難度更高——他們不是使用明顯不同的圖形作為負(fù)樣本,而是創(chuàng)造了"硬負(fù)樣本",即與正確圖形非常相似但在關(guān)鍵細(xì)節(jié)上有差異的圖形,迫使模型學(xué)會識別細(xì)微的幾何特征。

目前大多數(shù)多模態(tài)模型使用的視覺編碼器(如CLIP)主要是在自然場景圖像上訓(xùn)練的,這些圖像與幾何圖形有很大不同。就像一個只在城市里生活的人可能對森林中的植物辨識能力有限一樣,這些視覺編碼器在處理精細(xì)的幾何元素時表現(xiàn)不佳。清華團(tuán)隊開發(fā)的方法就像是專門為這些模型提供了一門"幾何識別特訓(xùn)課",通過精心設(shè)計的難題來提升它們的幾何理解能力。

讓我們深入了解這個研究團(tuán)隊是如何讓人工智能更好地"看懂"幾何圖形的。

一、為什么現(xiàn)有模型在幾何推理上表現(xiàn)不佳?

當(dāng)前最先進(jìn)的多模態(tài)模型在處理幾何問題時常常會犯錯,這就像一個學(xué)生在解題時看錯了題目中的圖形信息。研究人員在論文中展示了一個簡單的平行線問題,即使是頂尖模型如GPT-4o、Claude-3和Qwen2.5-VL都會出現(xiàn)幻覺,生成不存在的幾何元素(如△ABC和△ABE)或錯誤理解空間關(guān)系。

這一問題的根本原因在于這些模型的"眼睛"——視覺編碼器(通常是CLIP模型)——主要是在普通自然場景圖像上訓(xùn)練的,而不是專門針對幾何圖形進(jìn)行優(yōu)化。這就像是讓一個只學(xué)過識別動物的人去辨認(rèn)幾何圖形一樣,缺乏專門的訓(xùn)練和經(jīng)驗。

雖然有研究者嘗試通過在專門的數(shù)學(xué)數(shù)據(jù)集上進(jìn)行微調(diào)或使用大量圖像-文本對來增強(qiáng)模型的視覺感知能力,但這些方法仍有局限性。特別是,許多圖像描述(caption)是由現(xiàn)有的LMM生成的,可能本身就包含幻覺或錯誤信息。僅僅使用這些正樣本(正確的圖像-文本對)進(jìn)行訓(xùn)練,可能會導(dǎo)致模型學(xué)習(xí)到錯誤的關(guān)聯(lián)。

想象一下,如果你只給學(xué)生展示正確的答案,而不告訴他們哪些解題方法是錯誤的,那么學(xué)生很容易在遇到稍微不同的問題時犯錯。同樣,要讓模型真正理解幾何信息,不僅需要正確的例子,還需要專門設(shè)計的"陷阱"或"難題"來強(qiáng)化學(xué)習(xí)。

二、硬負(fù)樣本對比學(xué)習(xí):教模型區(qū)分細(xì)微差異的新方法

清華團(tuán)隊提出的核心創(chuàng)新是一種硬負(fù)樣本對比學(xué)習(xí)框架,包括兩大類負(fù)樣本構(gòu)建方法:基于圖像的和基于文本的。

### 基于圖像的負(fù)樣本構(gòu)建

想象你是一位幾何教師,不僅展示正確的幾何圖形,還會展示一些看起來很像但實際上有錯誤的圖形,讓學(xué)生學(xué)會辨別細(xì)微差異。清華團(tuán)隊的方法也是如此。

研究團(tuán)隊首先使用大語言模型(如GPT-4o)為給定的幾何問題生成詳細(xì)的描述和相應(yīng)的圖形生成代碼,這些代碼可以精確地繪制出符合問題描述的幾何圖形,形成"正樣本"。然后,研究人員會讓大語言模型對這些代碼進(jìn)行微小的修改,生成視覺上非常相似但在幾何上不正確的圖形,作為"硬負(fù)樣本"。

舉個例子,對于一個包含直角三角形的問題,系統(tǒng)可能會生成一個看起來幾乎相同但角度略有變化的圖形,使其不再是直角三角形。這種微小但關(guān)鍵的變化迫使模型學(xué)會關(guān)注幾何圖形的本質(zhì)特征,而不是簡單的外觀。

### 基于文本的負(fù)樣本構(gòu)建

除了圖像,研究團(tuán)隊還開發(fā)了兩種創(chuàng)建文本負(fù)樣本的策略:

1. 基于檢索的方法:研究團(tuán)隊使用SimANS模型對大量幾何領(lǐng)域的文本進(jìn)行編碼,計算相似度,并檢索出與正樣本描述詞匯相似但內(nèi)容不同的文本作為負(fù)樣本。這就像找出那些描述看起來很像但實際上在講不同事物的文本。

2. 基于規(guī)則的方法:研究團(tuán)隊分析了模型在MM-MATH數(shù)據(jù)集上的錯誤,識別出四種主要的圖像元素識別錯誤類型,然后根據(jù)這些錯誤類型設(shè)計了對應(yīng)的規(guī)則來構(gòu)建負(fù)樣本:

- 幾何元素順序:修改幾何圖形中字母的順序,如將ABCD改為CDAB(但確保新順序不是原始順序的循環(huán)變換)。

- 形狀屬性:改變屬性,如將正方形改為長方形,或?qū)⒅苯侨切胃臑榈妊切巍?/p>

- 幾何關(guān)系:修改關(guān)系,如將兩條線的平行關(guān)系改為其他關(guān)系,或改變?nèi)切沃g的相似關(guān)系。

- 數(shù)值:調(diào)整描述中的數(shù)值,如修改角度或線段長度。

### MMCLIP:處理任意數(shù)量負(fù)樣本的新方法

傳統(tǒng)的CLIP訓(xùn)練通常采用批內(nèi)負(fù)采樣,這限制了其對精細(xì)圖像理解的能力。清華團(tuán)隊提出了MMCLIP訓(xùn)練策略,專注于單個圖像及其對應(yīng)的硬負(fù)樣本進(jìn)行訓(xùn)練,完全拋棄了傳統(tǒng)的批內(nèi)負(fù)樣本。

這就像是為每個學(xué)生提供一套專門的習(xí)題,而不是讓所有學(xué)生做同一套題。在這種方式下,視覺編碼器被迫學(xué)會區(qū)分所有情況下的細(xì)微差異,從而增強(qiáng)其精細(xì)化的幾何理解能力。

研究團(tuán)隊在實驗中證明,不同類型的硬負(fù)樣本對模型性能的提升各不相同,其中基于真實考試圖像構(gòu)建的負(fù)樣本效果最為顯著——僅使用4K個圖像負(fù)樣本的效果就超過了100K個文本負(fù)樣本。這表明,質(zhì)量比數(shù)量更重要,精心設(shè)計的高質(zhì)量負(fù)樣本可以更有效地提升模型性能。

三、MMGeoLM:經(jīng)過硬負(fù)樣本訓(xùn)練的幾何理解模型

基于上述方法,研究團(tuán)隊訓(xùn)練了一個名為MMGeoLM的模型,并與現(xiàn)有的開源和閉源模型進(jìn)行了廣泛比較。

### 模型架構(gòu)與訓(xùn)練細(xì)節(jié)

MMGeoLM采用LLaVA架構(gòu),包括三個部分:視覺編碼器、2層MLP適配器和大語言模型主干。研究團(tuán)隊使用了兩種LLM主干:Mammoth2-7B和Qwen2.5-7B-Instruct,視覺編碼器基于AltCLIP,配置為最大長度512個標(biāo)記,模型大小為0.5B參數(shù)。

訓(xùn)練過程分為三個階段: 1. 視覺-文本對齊階段:首先在400K MAVIS圖像-文本對齊數(shù)據(jù)集上預(yù)訓(xùn)練AltCLIP,然后使用MMCLIP策略在100K硬文本負(fù)樣本(每個包含10個基于規(guī)則和30個基于檢索的負(fù)樣本)和4K硬圖像負(fù)樣本(每個包含10個負(fù)幾何圖)上進(jìn)行微調(diào)。

2. 第二階段:使用67K G-LLAVA圖像-文本對齊數(shù)據(jù)調(diào)整MLP適配器。

3. 第三階段:在300K MAVIS指令數(shù)據(jù)、117K G-LLaVA指令數(shù)據(jù)和17K開放式幾何問題(包括團(tuán)隊收集的12K問題和隨機(jī)抽樣的5K MM-MATH幾何問題)上進(jìn)行監(jiān)督式微調(diào)。

### 實驗結(jié)果

研究團(tuán)隊在四個幾何基準(zhǔn)上評估了MMGeoLM的表現(xiàn):

1. 多項選擇類基準(zhǔn): - GeoQA:一個基于平面幾何的幾何問題回答任務(wù) - We-Math:一個包含不同難度問題的視覺數(shù)學(xué)推理任務(wù) - MathVista:廣泛用于評估LMM性能的基準(zhǔn)

2. 開放式問題基準(zhǔn): - MM-MATH:一個具有高區(qū)分度的二級學(xué)校水平問題集

實驗結(jié)果令人矚目:MMGeoLM在MathVista和MM-MATH基準(zhǔn)上達(dá)到了最先進(jìn)的性能。在GeoQA基準(zhǔn)上,MMGeoLM-Qwen2.5-7B僅比Chimera-Reasoner-8B低0.4%,但后者是專門在GeoQA上訓(xùn)練的。值得注意的是,即使只有7B的規(guī)模,MMGeoLM也能在某些任務(wù)上與GPT-4o等強(qiáng)大的閉源模型相媲美。

研究人員還進(jìn)行了詳細(xì)的消融實驗,分析了不同類型的硬負(fù)樣本對幾何推理性能的影響。實驗結(jié)果顯示,通過真實考試圖像構(gòu)建的負(fù)樣本效果最為顯著——僅使用4K圖像負(fù)樣本的效果就超過了100K文本負(fù)樣本。此外,增加硬負(fù)樣本的數(shù)量可以提高性能,但超過一定閾值后會出現(xiàn)收益遞減甚至性能下降的情況。

四、研究意義與未來展望

這項研究的重要意義在于,它提供了一種新的方法來增強(qiáng)大型多模態(tài)模型的幾何理解能力。通過專門設(shè)計的硬負(fù)樣本對比學(xué)習(xí),模型能夠?qū)W會辨別幾何圖形中的細(xì)微差異,從而更準(zhǔn)確地進(jìn)行幾何推理。

這種方法不僅適用于幾何理解,還可能擴(kuò)展到其他需要精細(xì)視覺理解的領(lǐng)域,如醫(yī)學(xué)圖像分析、工程圖紙識別等。通過為模型提供既相似又有關(guān)鍵差異的樣本,可以顯著提升模型的細(xì)粒度識別能力。

然而,研究團(tuán)隊也指出了方法的局限性。盡管基于擾動Python腳本構(gòu)建的圖像硬負(fù)樣本效果顯著,但該方法在很大程度上依賴于LLM生成的代碼和描述的準(zhǔn)確性。這些合成構(gòu)建中的任何系統(tǒng)性偏差都可能引入與人類設(shè)計的幾何問題不同的人工制品。因此,模型在真實世界視覺輸入上的表現(xiàn)仍需進(jìn)一步驗證。

未來的研究方向可能包括進(jìn)一步優(yōu)化負(fù)樣本構(gòu)建方法,擴(kuò)展到更多幾何領(lǐng)域,以及將類似的硬負(fù)樣本學(xué)習(xí)策略應(yīng)用到其他視覺理解任務(wù)中。隨著這些技術(shù)的發(fā)展,我們可以期待未來的多模態(tài)模型能夠像人類幾何教師一樣,精確理解和解決復(fù)雜的幾何問題。

總的來說,清華大學(xué)研究團(tuán)隊的這項工作為提升人工智能在精細(xì)幾何理解方面的能力提供了一個強(qiáng)有力的新方法,展示了負(fù)樣本學(xué)習(xí)在教授AI"看懂"世界方面的重要性。正如學(xué)習(xí)識別錯誤對人類學(xué)習(xí)幾何一樣重要,學(xué)習(xí)辨別"幾乎正確但實際錯誤"的樣本對AI理解幾何同樣至關(guān)重要。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-