av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 香港科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn):AI視覺(jué)模型也能像人一樣推理數(shù)學(xué)題!

香港科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn):AI視覺(jué)模型也能像人一樣推理數(shù)學(xué)題!

2025-07-09 15:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 15:44 ? 科技行者

這項(xiàng)由香港科技大學(xué)的張景涵、何俊賢教授,聯(lián)合香港城市大學(xué)的陳詩(shī)淇、新加坡國(guó)立大學(xué)的朱同耀、熊淼,以及西北大學(xué)的李曼玲等研究者共同完成的突破性研究,于2025年5月發(fā)表在第41屆機(jī)器學(xué)習(xí)國(guó)際會(huì)議(ICML 2025)上。有興趣深入了解的讀者可以通過(guò)論文代碼庫(kù) https://github.com/shiqichen17/VLM_Merging 訪問(wèn)完整研究?jī)?nèi)容。

這項(xiàng)研究解決了一個(gè)困擾AI領(lǐng)域已久的問(wèn)題:為什么那些能"看懂"圖片又能"理解"文字的AI模型,在處理數(shù)學(xué)推理題時(shí)表現(xiàn)卻差強(qiáng)人意?就像一個(gè)學(xué)生雖然能看懂題目中的圖表,也認(rèn)識(shí)所有的文字,但就是不會(huì)做數(shù)學(xué)題一樣。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的解決方案——通過(guò)"模型融合"技術(shù),把專門(mén)擅長(zhǎng)數(shù)學(xué)推理的語(yǔ)言模型的"數(shù)學(xué)天賦"移植到視覺(jué)語(yǔ)言模型中,讓它們既保持原有的"視覺(jué)理解"能力,又獲得強(qiáng)大的"數(shù)學(xué)推理"能力。

這個(gè)發(fā)現(xiàn)的意義不僅在于技術(shù)突破,更在于它為我們理解AI的內(nèi)在工作機(jī)制打開(kāi)了一扇新窗戶。研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),AI模型就像人的大腦一樣,不同的"技能"存儲(chǔ)在不同的"區(qū)域"——視覺(jué)感知能力主要集中在神經(jīng)網(wǎng)絡(luò)的前層,而數(shù)學(xué)推理能力則藏在中后層。這一發(fā)現(xiàn)不僅幫助我們更好地理解AI的工作原理,也為未來(lái)設(shè)計(jì)更強(qiáng)大的AI系統(tǒng)提供了重要指導(dǎo)。

一、AI的"偏科"難題:看得懂卻算不對(duì)

當(dāng)前的視覺(jué)語(yǔ)言模型就像一個(gè)聰明但"偏科"的學(xué)生。它們?cè)谔幚砣粘5囊曈X(jué)問(wèn)答任務(wù)時(shí)表現(xiàn)出色,能夠準(zhǔn)確識(shí)別圖片中的物體、理解場(chǎng)景內(nèi)容,甚至回答關(guān)于圖片的復(fù)雜問(wèn)題。然而,一旦遇到需要數(shù)學(xué)推理的視覺(jué)問(wèn)題,比如分析圖表中的數(shù)據(jù)趨勢(shì)、計(jì)算幾何圖形的面積,或者解決包含圖像的數(shù)學(xué)應(yīng)用題,這些模型就開(kāi)始"掉鏈子"了。

這種現(xiàn)象的根本原因在于訓(xùn)練數(shù)據(jù)的稀缺性。相比于純文本的數(shù)學(xué)推理數(shù)據(jù),包含視覺(jué)元素的數(shù)學(xué)推理數(shù)據(jù)極其有限。這就像讓一個(gè)只在室內(nèi)練習(xí)過(guò)的籃球運(yùn)動(dòng)員突然到戶外比賽,環(huán)境的變化讓原本熟練的技能變得生疏。更進(jìn)一步說(shuō),即使有足夠的多模態(tài)數(shù)學(xué)數(shù)據(jù),從零開(kāi)始訓(xùn)練一個(gè)既能"看"又能"算"的模型,所需的計(jì)算資源和時(shí)間成本也是天文數(shù)字。

與此形成鮮明對(duì)比的是,純文本的大語(yǔ)言模型在數(shù)學(xué)推理方面已經(jīng)取得了令人矚目的進(jìn)展。這些模型能夠處理復(fù)雜的數(shù)學(xué)證明、解決多步驟的代數(shù)問(wèn)題,甚至進(jìn)行高級(jí)的邏輯推理。這種反差讓研究者們開(kāi)始思考:能否找到一種方法,把語(yǔ)言模型的數(shù)學(xué)推理能力"轉(zhuǎn)移"到視覺(jué)語(yǔ)言模型中,而不需要從頭開(kāi)始訓(xùn)練?

二、模型融合:AI界的"技能移植手術(shù)"

研究團(tuán)隊(duì)提出的解決方案可以比作一種精妙的"技能移植手術(shù)"。在醫(yī)學(xué)中,器官移植需要仔細(xì)匹配供體和受體,確保移植后的器官能夠正常工作。在AI模型中,這個(gè)過(guò)程同樣需要精確的"手術(shù)"技巧。

模型融合的核心思想建立在一個(gè)重要假設(shè)之上:如果兩個(gè)模型都是從同一個(gè)"基礎(chǔ)模型"出發(fā),通過(guò)不同的訓(xùn)練任務(wù)發(fā)展出各自的專長(zhǎng),那么它們?cè)趨?shù)空間中應(yīng)該存在某種可連接性。這就像兩個(gè)從同一所大學(xué)畢業(yè)的學(xué)生,一個(gè)成為了畫(huà)家,另一個(gè)成為了數(shù)學(xué)家,雖然專業(yè)不同,但他們的基礎(chǔ)知識(shí)結(jié)構(gòu)有相通之處。

具體的操作過(guò)程可以這樣理解:研究團(tuán)隊(duì)首先提取每個(gè)模型相對(duì)于基礎(chǔ)模型的"差異向量",這個(gè)向量記錄了模型在特定訓(xùn)練過(guò)程中學(xué)到的所有變化。接下來(lái),他們使用加權(quán)平均的方法,將視覺(jué)語(yǔ)言模型的"視覺(jué)理解能力"和數(shù)學(xué)專業(yè)模型的"推理能力"按照一定比例混合。這個(gè)過(guò)程不需要任何額外的訓(xùn)練,就像調(diào)制雞尾酒一樣,通過(guò)精確的配比創(chuàng)造出全新的"口味"。

權(quán)重參數(shù)的選擇至關(guān)重要。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)給視覺(jué)語(yǔ)言模型分配90%的權(quán)重,給數(shù)學(xué)推理模型分配10%的權(quán)重時(shí),能夠達(dá)到最佳的平衡效果。這個(gè)比例既保持了原有的視覺(jué)理解能力,又成功注入了數(shù)學(xué)推理能力。

三、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的華麗轉(zhuǎn)身

為了驗(yàn)證這種"技能移植"方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn)。他們選擇了三個(gè)代表性的視覺(jué)語(yǔ)言模型作為"患者":LLaVA-Next、Idefics2和InternVL2,這些模型的規(guī)模從8B到76B參數(shù)不等,代表了當(dāng)前技術(shù)的不同層次。

作為"供體"的數(shù)學(xué)推理模型同樣經(jīng)過(guò)精心挑選,包括Dart-Math、MetaMath、MAmmoTH等專門(mén)針對(duì)數(shù)學(xué)問(wèn)題訓(xùn)練的語(yǔ)言模型。這些模型就像不同專科的醫(yī)生,各自在特定的數(shù)學(xué)領(lǐng)域有著深度的專業(yè)知識(shí)。

實(shí)驗(yàn)結(jié)果令人振奮。以LLaVA模型為例,在與Dart數(shù)學(xué)模型融合后,它在MathVista數(shù)學(xué)相關(guān)子集上的表現(xiàn)提升了3.6個(gè)百分點(diǎn),在MathVerse的純視覺(jué)模式下也獲得了1.4個(gè)百分點(diǎn)的提升。更令人驚喜的是,即使在題目完全以圖像形式呈現(xiàn)的情況下,融合后的模型依然能夠展現(xiàn)出更強(qiáng)的推理能力。

這種改進(jìn)并非偶然現(xiàn)象。研究團(tuán)隊(duì)在多個(gè)不同的基準(zhǔn)測(cè)試中都觀察到了一致的性能提升,證明了方法的普適性和穩(wěn)定性。特別值得注意的是,對(duì)于那些主要依賴視覺(jué)感知的任務(wù),融合過(guò)程幾乎沒(méi)有造成性能損失,說(shuō)明"手術(shù)"過(guò)程非常精準(zhǔn),沒(méi)有"誤傷"到原有的能力。

四、深入內(nèi)部:AI大腦的"功能分區(qū)"地圖

這項(xiàng)研究最令人興奮的發(fā)現(xiàn)之一,是首次揭示了視覺(jué)語(yǔ)言模型內(nèi)部的"功能分區(qū)"。就像人類大腦中不同區(qū)域負(fù)責(zé)不同功能一樣,AI模型的不同層次也承擔(dān)著截然不同的任務(wù)。

通過(guò)一系列巧妙的"敲除實(shí)驗(yàn)",研究團(tuán)隊(duì)繪制出了AI模型的功能地圖。他們發(fā)現(xiàn),模型的前幾層主要負(fù)責(zé)視覺(jué)感知和基礎(chǔ)的世界知識(shí)處理,這些層次就像大腦的視覺(jué)皮層,專門(mén)處理來(lái)自"眼睛"的信息。當(dāng)這些層次被干擾時(shí),模型在識(shí)別圖像內(nèi)容和回答基礎(chǔ)視覺(jué)問(wèn)題方面會(huì)出現(xiàn)明顯困難。

相比之下,模型的中后層則承擔(dān)著更加抽象和復(fù)雜的推理任務(wù)。數(shù)學(xué)推理能力主要集中在這些深層網(wǎng)絡(luò)中,它們負(fù)責(zé)進(jìn)行多步驟的邏輯推導(dǎo)、數(shù)值計(jì)算和抽象概念的操作。這種分工模式與人類認(rèn)知過(guò)程有著驚人的相似性——我們也是先通過(guò)感官收集信息,然后在大腦的高級(jí)區(qū)域進(jìn)行復(fù)雜的推理和判斷。

模型融合過(guò)程的分析揭示了另一個(gè)有趣現(xiàn)象:融合后的模型在幾乎所有層次都獲得了增強(qiáng)的數(shù)學(xué)推理能力,而視覺(jué)感知能力的分布基本保持不變。這說(shuō)明數(shù)學(xué)推理能力的注入是全方位的,就像給整個(gè)神經(jīng)網(wǎng)絡(luò)都安裝了"數(shù)學(xué)思維模塊",而不僅僅是在特定層次進(jìn)行局部改進(jìn)。

五、推理能力的量化證據(jù):從簡(jiǎn)短回答到深度思考

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)意想不到的現(xiàn)象:融合后的模型在回答數(shù)學(xué)問(wèn)題時(shí),答案長(zhǎng)度顯著增加,這直接反映了推理能力的提升。這種變化不是簡(jiǎn)單的"話變多了",而是模型開(kāi)始展現(xiàn)出類似人類的"思考過(guò)程"。

在幾何推理、代數(shù)計(jì)算等需要多步驟思考的任務(wù)中,融合后的模型能夠生成詳細(xì)的解題步驟,就像一個(gè)細(xì)心的數(shù)學(xué)老師在黑板上一步步展示解題過(guò)程。答案長(zhǎng)度的增加與準(zhǔn)確率的提升呈現(xiàn)出明顯的正相關(guān)關(guān)系,證明了更長(zhǎng)的推理鏈條確實(shí)帶來(lái)了更好的解題效果。

這種現(xiàn)象在推理密集型任務(wù)中尤為明顯。對(duì)于幾何問(wèn)題求解、代數(shù)推理等任務(wù),融合后模型的平均回答長(zhǎng)度超過(guò)了原始長(zhǎng)度的250%。而對(duì)于主要依賴視覺(jué)理解的任務(wù),如圖片問(wèn)答,答案長(zhǎng)度變化很小,甚至略有減少。這種差異化的表現(xiàn)進(jìn)一步證實(shí)了融合過(guò)程的精準(zhǔn)性——它只在需要的地方增強(qiáng)了能力,而沒(méi)有在不必要的地方增加冗余。

六、局限性與未來(lái)方向:技術(shù)進(jìn)步的下一站

盡管取得了令人矚目的成果,研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了當(dāng)前方法的局限性。最主要的限制是,這種"技能移植"主要對(duì)文本推理任務(wù)有效,對(duì)于那些嚴(yán)重依賴視覺(jué)感知的復(fù)雜推理任務(wù),改進(jìn)效果相對(duì)有限。

這個(gè)現(xiàn)象其實(shí)很好理解:當(dāng)一個(gè)數(shù)學(xué)問(wèn)題的關(guān)鍵信息都嵌入在復(fù)雜的圖像中時(shí),即使擁有再?gòu)?qiáng)的數(shù)學(xué)推理能力,如果無(wú)法準(zhǔn)確"看懂"圖像內(nèi)容,也難以得出正確答案。這就像一個(gè)數(shù)學(xué)天才面對(duì)一張模糊不清的題目圖片,再?gòu)?qiáng)的推理能力也無(wú)用武之地。

另一個(gè)有趣的發(fā)現(xiàn)是,融合不同類型的推理模型會(huì)產(chǎn)生不同的效果。專門(mén)針對(duì)數(shù)學(xué)訓(xùn)練的模型融合效果最好,而通用推理模型的融合效果相對(duì)一般。這提示我們,未來(lái)可能需要開(kāi)發(fā)更加專業(yè)化、針對(duì)性更強(qiáng)的"供體模型",以實(shí)現(xiàn)更精準(zhǔn)的能力轉(zhuǎn)移。

研究團(tuán)隊(duì)還探索了跨域推理能力的轉(zhuǎn)移可能性。他們嘗試將邏輯推理模型與視覺(jué)語(yǔ)言模型融合,結(jié)果發(fā)現(xiàn)這種跨域的"技能移植"同樣可行,暗示了這種方法具有更廣闊的應(yīng)用前景。未來(lái),我們或許能夠看到融合了多種專業(yè)能力的"全能型"AI模型。

七、技術(shù)細(xì)節(jié):融合方法的深度對(duì)比

在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)對(duì)比了多種不同的融合策略。除了主要使用的線性融合方法外,他們還測(cè)試了TIES融合等更復(fù)雜的技術(shù)。結(jié)果顯示,雖然某些復(fù)雜方法在特定任務(wù)上可能表現(xiàn)更好,但簡(jiǎn)單的線性融合在整體性能和實(shí)現(xiàn)復(fù)雜度之間達(dá)到了最佳平衡。

這個(gè)發(fā)現(xiàn)具有重要的實(shí)踐意義。在實(shí)際應(yīng)用中,簡(jiǎn)單可靠的方法往往比復(fù)雜精巧的方案更有價(jià)值。線性融合不僅計(jì)算效率高,而且參數(shù)調(diào)節(jié)相對(duì)簡(jiǎn)單,降低了技術(shù)應(yīng)用的門(mén)檻。

研究團(tuán)隊(duì)還發(fā)現(xiàn),融合權(quán)重的選擇需要根據(jù)具體的基礎(chǔ)模型進(jìn)行微調(diào)。對(duì)于不同規(guī)模、不同架構(gòu)的模型,最優(yōu)的融合比例可能有所差異。但總體而言,給視覺(jué)語(yǔ)言模型分配80-90%的權(quán)重通常能夠獲得較好的效果。

八、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界

這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)層面的突破。在教育領(lǐng)域,融合后的模型可以成為更強(qiáng)大的AI家教,能夠理解包含圖表、幾何圖形的復(fù)雜數(shù)學(xué)題,并提供詳細(xì)的解題步驟。學(xué)生可以拍照上傳題目,獲得不僅僅是答案,更是完整的思考過(guò)程。

在科研和工程領(lǐng)域,這種技術(shù)可以幫助分析包含視覺(jué)元素的科學(xué)數(shù)據(jù),如從實(shí)驗(yàn)圖片中提取數(shù)值信息并進(jìn)行統(tǒng)計(jì)分析,或者從工程圖紙中理解設(shè)計(jì)參數(shù)并進(jìn)行計(jì)算驗(yàn)證。金融分析師可以利用這種技術(shù)分析包含圖表的財(cái)務(wù)報(bào)告,自動(dòng)提取關(guān)鍵數(shù)據(jù)并進(jìn)行趨勢(shì)分析。

更進(jìn)一步,這種"技能移植"的思想可能催生全新的AI開(kāi)發(fā)模式。未來(lái)的AI系統(tǒng)可能不再需要從零開(kāi)始訓(xùn)練,而是通過(guò)融合不同專業(yè)模型的方式,快速獲得多樣化的能力。這將大大降低AI開(kāi)發(fā)的成本和時(shí)間,讓更多組織和個(gè)人能夠構(gòu)建符合自己需求的專業(yè)AI系統(tǒng)。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證明,這種方法不僅在8B參數(shù)的中等規(guī)模模型上有效,在76B參數(shù)的大型模型上同樣表現(xiàn)出色。這種規(guī)模無(wú)關(guān)性為技術(shù)的廣泛應(yīng)用奠定了基礎(chǔ),無(wú)論是資源受限的邊緣設(shè)備還是云端的大型服務(wù)器,都可以從這種技術(shù)中受益。

說(shuō)到底,這項(xiàng)研究為我們展示了AI發(fā)展的一個(gè)新方向:不是簡(jiǎn)單地追求更大的模型和更多的數(shù)據(jù),而是通過(guò)巧妙的技術(shù)手段,讓現(xiàn)有的AI系統(tǒng)發(fā)揮出更大的潛力。就像一個(gè)優(yōu)秀的教練能夠發(fā)掘運(yùn)動(dòng)員的潛在能力一樣,模型融合技術(shù)讓我們能夠挖掘AI模型的隱藏才能。

這種方法的成功也提醒我們,AI的進(jìn)步不一定要走"大力出奇跡"的路線。有時(shí)候,聰明的組合和精巧的設(shè)計(jì)比單純的規(guī)模擴(kuò)張更有價(jià)值。正如這項(xiàng)研究所展示的,通過(guò)理解AI的內(nèi)在機(jī)制,我們可以用更少的資源獲得更好的效果。

更重要的是,這項(xiàng)研究為理解AI的工作原理提供了新的視角。通過(guò)揭示不同能力在模型中的分布規(guī)律,我們對(duì)人工智能有了更深入的認(rèn)識(shí)。這種認(rèn)識(shí)不僅有助于改進(jìn)現(xiàn)有技術(shù),也為設(shè)計(jì)下一代AI架構(gòu)提供了重要啟發(fā)。

歸根結(jié)底,這項(xiàng)由香港科技大學(xué)、香港城市大學(xué)、新加坡國(guó)立大學(xué)和西北大學(xué)聯(lián)合完成的研究,不僅解決了視覺(jué)語(yǔ)言模型數(shù)學(xué)推理能力不足的實(shí)際問(wèn)題,更為整個(gè)AI領(lǐng)域提供了一種全新的思考方式。它告訴我們,AI的未來(lái)可能不在于構(gòu)建更大的模型,而在于更聰明地組合和利用現(xiàn)有的模型能力。

Q&A

Q1:模型融合是什么?它能解決什么問(wèn)題? A:模型融合是一種將不同AI模型的能力進(jìn)行組合的技術(shù),就像把數(shù)學(xué)天才的推理能力移植給視覺(jué)專家一樣。它能解決當(dāng)前視覺(jué)AI模型雖然能"看懂"圖片卻不會(huì)做數(shù)學(xué)題的問(wèn)題,讓AI既能理解視覺(jué)內(nèi)容又能進(jìn)行復(fù)雜的數(shù)學(xué)推理。

Q2:這種技術(shù)會(huì)不會(huì)影響AI模型原有的視覺(jué)能力? A:研究顯示影響非常小。融合過(guò)程非常精準(zhǔn),主要在模型的中后層增強(qiáng)數(shù)學(xué)推理能力,而視覺(jué)感知能力主要集中在前層,兩者分工明確。實(shí)驗(yàn)中視覺(jué)相關(guān)任務(wù)的性能基本保持不變,有些甚至略有提升。

Q3:普通人能用上這種技術(shù)嗎?有什么實(shí)際用途? A:目前這還是研究階段的技術(shù),但應(yīng)用前景很廣闊。未來(lái)可能出現(xiàn)在AI家教軟件中,幫學(xué)生解答包含圖表的數(shù)學(xué)題;在工程軟件中分析技術(shù)圖紙;在金融應(yīng)用中自動(dòng)分析包含圖表的財(cái)務(wù)報(bào)告等。研究團(tuán)隊(duì)已在GitHub開(kāi)源相關(guān)代碼。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-