這項(xiàng)由清華大學(xué)、上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)、上海交通大學(xué)等多家知名研究機(jī)構(gòu)聯(lián)合開展的研究,于2025年7月發(fā)表在計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR上。研究的核心成果是開發(fā)出了名為Mono-InternVL-1.5的多模態(tài)大語言模型,該模型能夠在大幅降低訓(xùn)練成本的同時(shí)保持甚至提升性能表現(xiàn)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過https://github.com/OpenGVLab/Mono-InternVL獲取完整的代碼和模型資源。
在當(dāng)今人工智能快速發(fā)展的時(shí)代,一個(gè)令人頭疼的問題正困擾著研究者們:如何讓AI既聰明又不那么燒錢?當(dāng)我們希望AI能夠同時(shí)理解圖片和文字時(shí),這個(gè)挑戰(zhàn)變得更加復(fù)雜。傳統(tǒng)的做法就像雇傭兩個(gè)專家——一個(gè)看圖專家和一個(gè)文字專家,然后讓他們合作完成任務(wù)。雖然這種方式效果不錯(cuò),但成本高昂,就像同時(shí)雇傭兩個(gè)高級(jí)顧問一樣。
研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案:為什么不訓(xùn)練一個(gè)既能看圖又能理解文字的全能型AI呢?這就像培養(yǎng)一個(gè)既會(huì)繪畫又會(huì)寫作的多才多藝的藝術(shù)家,而不是分別雇傭畫家和作家。這種被稱為"單體式"的多模態(tài)大語言模型,能夠在一個(gè)統(tǒng)一的框架內(nèi)處理視覺和語言任務(wù)。
然而,訓(xùn)練這樣的全能型AI面臨著巨大的挑戰(zhàn)。就像讓一個(gè)人同時(shí)學(xué)習(xí)繪畫和寫作一樣,如果教學(xué)方法不當(dāng),學(xué)會(huì)繪畫可能會(huì)讓他忘記如何寫作,這就是AI研究中著名的"災(zāi)難性遺忘"問題。為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的訓(xùn)練策略。
一、解決AI學(xué)習(xí)中的"顧此失彼"難題
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)可以用學(xué)習(xí)外語來比喻。當(dāng)你已經(jīng)精通中文寫作后,再學(xué)習(xí)英語時(shí),如果教學(xué)方法不當(dāng),你可能會(huì)發(fā)現(xiàn)中文寫作能力有所退化。同樣,當(dāng)一個(gè)已經(jīng)具備優(yōu)秀語言能力的AI模型開始學(xué)習(xí)處理圖像時(shí),原有的語言能力可能會(huì)受到?jīng)_擊。
為了避免這種"顧此失彼"的情況,研究團(tuán)隊(duì)采用了一種類似于"增設(shè)專門部門"的策略。他們在原有的語言AI模型中嵌入了專門的視覺專家模塊,就像在一家主要從事文字工作的公司里增設(shè)一個(gè)圖像處理部門。關(guān)鍵在于,原有的文字處理部門保持不變,所有的圖像學(xué)習(xí)都由新增的視覺專家來承擔(dān)。
這種設(shè)計(jì)的巧妙之處在于使用了"專家混合"架構(gòu)。當(dāng)處理文字內(nèi)容時(shí),系統(tǒng)會(huì)自動(dòng)調(diào)用文字專家;當(dāng)遇到圖像內(nèi)容時(shí),則啟用視覺專家。這就像一個(gè)智能的工作分配系統(tǒng),能夠根據(jù)任務(wù)類型自動(dòng)選擇最合適的專家來處理。
更進(jìn)一步,研究團(tuán)隊(duì)開發(fā)了一個(gè)漸進(jìn)式的訓(xùn)練方法,稱為"內(nèi)生視覺預(yù)訓(xùn)練"。這個(gè)過程分為三個(gè)階段,就像培養(yǎng)一個(gè)藝術(shù)家的完整流程。第一階段是"概念學(xué)習(xí)",讓AI掌握基本的視覺概念,比如識(shí)別什么是貓、什么是狗,就像藝術(shù)家學(xué)習(xí)基本的形狀和顏色。第二階段是"語義學(xué)習(xí)",教會(huì)AI理解更復(fù)雜的視覺關(guān)系和知識(shí),比如理解圖片中的故事情節(jié),就像藝術(shù)家學(xué)習(xí)構(gòu)圖和表達(dá)情感。第三階段是"對(duì)齊學(xué)習(xí)",讓AI學(xué)會(huì)將視覺理解與語言表達(dá)完美結(jié)合,就像藝術(shù)家學(xué)會(huì)用畫筆表達(dá)內(nèi)心的想法。
二、Mono-InternVL-1.5的突破性改進(jìn)
在第一代Mono-InternVL取得成功后,研究團(tuán)隊(duì)并沒有止步不前。他們發(fā)現(xiàn)了一個(gè)重要問題:雖然模型性能不錯(cuò),但訓(xùn)練成本仍然很高,就像一個(gè)優(yōu)秀的工匠雖然手藝精湛,但制作一件作品需要花費(fèi)太多時(shí)間和材料。
于是,他們開發(fā)了改進(jìn)版本Mono-InternVL-1.5,這個(gè)版本的核心理念是"用更少的資源做更好的事"。他們采用了"少而精"的數(shù)據(jù)策略,就像一個(gè)經(jīng)驗(yàn)豐富的老師知道如何用最少的例題教會(huì)學(xué)生最多的知識(shí)。
具體來說,新版本引入了"視覺注意力專家"。如果說原來的視覺專家像是眼睛,那么視覺注意力專家就像是大腦中負(fù)責(zé)分析視覺信息的部分。當(dāng)AI看到一張圖片時(shí),不僅要能看到內(nèi)容,還要能夠分析哪些部分最重要,哪些細(xì)節(jié)值得關(guān)注。這就像一個(gè)攝影師不僅要會(huì)拍照,還要知道如何構(gòu)圖和突出重點(diǎn)。
在數(shù)據(jù)使用方面,Mono-InternVL-1.5采用了更加高效的策略。原來的版本需要大約11億條訓(xùn)練樣本,而新版本只需要5億條高質(zhì)量樣本就能達(dá)到更好的效果。這就像一個(gè)優(yōu)秀的老師能夠用精選的教材取得比大量低質(zhì)量教材更好的教學(xué)效果。
研究團(tuán)隊(duì)還開發(fā)了專門的加速技術(shù),稱為"融合CUDA核心"。這項(xiàng)技術(shù)就像為計(jì)算機(jī)裝上了更高效的處理器,能夠顯著提升模型的運(yùn)行速度。在實(shí)際測試中,這項(xiàng)技術(shù)將推理速度提升了26%,相當(dāng)于原來需要10秒鐘完成的任務(wù)現(xiàn)在只需要8秒鐘。
三、架構(gòu)設(shè)計(jì)的獨(dú)特之處
Mono-InternVL系列模型的架構(gòu)設(shè)計(jì)體現(xiàn)了"統(tǒng)一中有分工"的哲學(xué)。整個(gè)系統(tǒng)就像一個(gè)設(shè)計(jì)精良的工作室,不同的專家在同一個(gè)空間內(nèi)協(xié)同工作,但各自專注于自己的領(lǐng)域。
在視覺處理方面,模型采用了輕量級(jí)的圖像標(biāo)記化方法。傳統(tǒng)的方法需要先用一個(gè)專門的視覺編碼器處理圖像,然后再傳遞給語言模型,這就像需要兩個(gè)翻譯員——先把圖像翻譯成中間語言,再翻譯成文字。而Mono-InternVL直接將圖像切分成小塊,每個(gè)小塊對(duì)應(yīng)一個(gè)視覺標(biāo)記,就像將一張照片切成拼圖塊,每個(gè)塊都包含一部分視覺信息。
這種設(shè)計(jì)的優(yōu)勢在于能夠處理任意分辨率的圖像,最高可以處理800萬像素的高清圖片,相當(dāng)于能夠處理專業(yè)級(jí)攝影作品。系統(tǒng)會(huì)根據(jù)圖像內(nèi)容自動(dòng)調(diào)整處理策略,就像一個(gè)經(jīng)驗(yàn)豐富的圖像編輯師能夠根據(jù)照片特點(diǎn)選擇最合適的處理方法。
在多模態(tài)融合方面,模型使用了"硬路由"策略。這意味著當(dāng)系統(tǒng)遇到文字內(nèi)容時(shí),會(huì)自動(dòng)激活文字專家;遇到視覺內(nèi)容時(shí),則啟用視覺專家。這種明確的分工避免了不同類型信息之間的相互干擾,就像一個(gè)井然有序的辦公室,每個(gè)部門都有明確的職責(zé)范圍。
為了進(jìn)一步提升效率,Mono-InternVL-1.5還引入了"混合深度"的概念。系統(tǒng)會(huì)根據(jù)任務(wù)復(fù)雜程度動(dòng)態(tài)調(diào)整計(jì)算資源的分配,簡單任務(wù)使用較少的計(jì)算層,復(fù)雜任務(wù)則動(dòng)用更多資源。這就像一個(gè)智能的工作分配系統(tǒng),能夠根據(jù)任務(wù)難度自動(dòng)調(diào)整投入的人力和時(shí)間。
四、訓(xùn)練策略的精妙設(shè)計(jì)
Mono-InternVL的訓(xùn)練過程體現(xiàn)了"循序漸進(jìn)"的教育理念。整個(gè)訓(xùn)練分為四個(gè)階段,每個(gè)階段都有明確的學(xué)習(xí)目標(biāo)和策略。
第一階段是概念學(xué)習(xí),這個(gè)階段就像教小孩子認(rèn)識(shí)世界。系統(tǒng)需要學(xué)會(huì)識(shí)別基本的視覺元素,比如什么是汽車、什么是房子、什么是人物。研究團(tuán)隊(duì)使用了約9.22億個(gè)圖像-文字配對(duì)樣本,這些樣本大多來自互聯(lián)網(wǎng),包含了豐富但相對(duì)噪雜的信息,就像一個(gè)孩子通過觀察日常生活來認(rèn)識(shí)世界。
在這個(gè)階段,系統(tǒng)只需要學(xué)會(huì)給圖片生成簡單的描述,比如"這是一只棕色的狗"或"這是一輛紅色的汽車"。雖然描述簡單,但這為后續(xù)的復(fù)雜學(xué)習(xí)打下了堅(jiān)實(shí)基礎(chǔ)。研究團(tuán)隊(duì)巧妙地將圖像分辨率限制在相對(duì)較低的水平,就像先教孩子認(rèn)識(shí)簡筆畫,再逐步介紹復(fù)雜的藝術(shù)作品。
第二階段是語義學(xué)習(xí),這時(shí)系統(tǒng)開始學(xué)習(xí)更加復(fù)雜的視覺理解。研究團(tuán)隊(duì)不再使用網(wǎng)絡(luò)上的噪雜數(shù)據(jù),而是用預(yù)訓(xùn)練的高質(zhì)量模型生成了2.58億個(gè)精確的圖像描述。這就像從讓孩子自己摸索改為請專業(yè)老師來指導(dǎo),學(xué)習(xí)質(zhì)量顯著提升。
在這個(gè)階段,系統(tǒng)學(xué)會(huì)了理解圖像中的復(fù)雜關(guān)系,比如"一個(gè)穿紅衣服的女孩正在公園里喂鴿子"這樣包含多個(gè)對(duì)象和動(dòng)作的復(fù)雜場景。系統(tǒng)的圖像處理能力也得到提升,可以處理更高分辨率的圖像,就像學(xué)生的閱讀能力從簡單的兒童書籍提升到了復(fù)雜的文學(xué)作品。
第三階段是對(duì)齊學(xué)習(xí),這是最關(guān)鍵的階段。系統(tǒng)需要學(xué)會(huì)將視覺理解與特定任務(wù)相結(jié)合,比如回答關(guān)于圖像的問題、進(jìn)行文字識(shí)別、理解圖表信息等。這個(gè)階段使用了1.43億個(gè)任務(wù)相關(guān)的樣本,涵蓋了圖像描述、物體檢測、文字識(shí)別等多個(gè)方面。
在這個(gè)階段,研究團(tuán)隊(duì)做了一個(gè)重要調(diào)整:他們解凍了多頭注意力層的參數(shù),允許系統(tǒng)學(xué)會(huì)更好地協(xié)調(diào)視覺和語言信息。這就像讓一個(gè)學(xué)生不僅要學(xué)會(huì)看懂圖片和理解文字,還要學(xué)會(huì)如何將兩者有機(jī)結(jié)合起來。
最后一個(gè)階段是指令微調(diào),系統(tǒng)學(xué)會(huì)按照人類的指令執(zhí)行各種復(fù)雜任務(wù)。這個(gè)階段使用了700萬個(gè)高質(zhì)量的指令-響應(yīng)對(duì),覆蓋了多種語言和任務(wù)類型。系統(tǒng)在這個(gè)階段真正成為了一個(gè)可用的AI助手,能夠理解復(fù)雜的用戶需求并給出合適的回應(yīng)。
五、性能表現(xiàn)與效率提升
Mono-InternVL-1.5在性能測試中展現(xiàn)出了令人印象深刻的表現(xiàn)。研究團(tuán)隊(duì)在15個(gè)不同的評(píng)測基準(zhǔn)上進(jìn)行了全面測試,就像讓一個(gè)學(xué)生參加多門學(xué)科的綜合考試。
在與其他單體式多模態(tài)模型的比較中,Mono-InternVL表現(xiàn)突出。比如在OCRBench這個(gè)專門測試文字識(shí)別能力的基準(zhǔn)上,Mono-InternVL比Emu3模型高出了114分,這是一個(gè)巨大的性能提升。在MMVet這個(gè)測試綜合能力的基準(zhǔn)上,Mono-InternVL-1.5獲得了54.0分,而同等規(guī)模的其他模型通常只能達(dá)到30-40分。
更重要的是效率方面的提升。Mono-InternVL-1.5只需要5億個(gè)訓(xùn)練樣本,比原版本的11億個(gè)樣本減少了58%,但性能卻有所提升。這就像一個(gè)學(xué)生通過改進(jìn)學(xué)習(xí)方法,用更少的時(shí)間取得了更好的成績。
在推理速度方面,改進(jìn)也很顯著。得益于專門設(shè)計(jì)的加速核心,Mono-InternVL-1.5的首個(gè)令牌生成時(shí)間比傳統(tǒng)的模塊化模型快了69%。這意味著用戶提出問題后,系統(tǒng)能夠更快地開始回應(yīng),大大提升了使用體驗(yàn)。
研究團(tuán)隊(duì)還特別測試了模型在不同圖像分辨率下的表現(xiàn)。結(jié)果顯示,即使在處理高分辨率圖像時(shí),Mono-InternVL-1.5也能保持穩(wěn)定的性能,這對(duì)于實(shí)際應(yīng)用來說非常重要。很多現(xiàn)實(shí)場景中的圖像,比如文檔、海報(bào)、技術(shù)圖紙等,都需要高分辨率處理才能獲得準(zhǔn)確的信息。
六、技術(shù)創(chuàng)新的深層價(jià)值
Mono-InternVL系列模型的技術(shù)創(chuàng)新不僅體現(xiàn)在性能數(shù)字上,更重要的是它為AI發(fā)展指出了一個(gè)新方向。傳統(tǒng)的多模態(tài)AI就像一個(gè)需要多個(gè)專業(yè)顧問協(xié)作的復(fù)雜項(xiàng)目,而Mono-InternVL證明了培養(yǎng)一個(gè)多才多藝的通才同樣可行,甚至在某些方面更有優(yōu)勢。
首先是部署簡便性。傳統(tǒng)的模塊化多模態(tài)模型需要維護(hù)多個(gè)獨(dú)立的組件,就像一個(gè)樂隊(duì)需要協(xié)調(diào)多種不同的樂器。而單體式模型就像一個(gè)能演奏多種樂器的音樂家,部署和維護(hù)都更加簡單。這對(duì)于實(shí)際應(yīng)用來說意義重大,特別是在資源有限的環(huán)境中。
其次是學(xué)習(xí)效率。通過巧妙的訓(xùn)練策略,Mono-InternVL證明了可以用更少的數(shù)據(jù)達(dá)到更好的效果。這不僅降低了訓(xùn)練成本,也為中小型研究機(jī)構(gòu)和公司提供了參與多模態(tài)AI研究的可能性。就像找到了一種更高效的學(xué)習(xí)方法,讓更多人能夠掌握復(fù)雜技能。
研究團(tuán)隊(duì)開發(fā)的"內(nèi)生視覺預(yù)訓(xùn)練"方法也具有重要的理論價(jià)值。它證明了在不破壞原有能力的前提下為AI系統(tǒng)增加新能力是可能的,這為未來的多模態(tài)AI發(fā)展提供了重要的方法論指導(dǎo)。
融合CUDA核心的開發(fā)則解決了一個(gè)實(shí)際的工程問題。多模態(tài)混合專家系統(tǒng)在理論上很優(yōu)美,但在實(shí)際運(yùn)行時(shí)往往面臨效率問題。研究團(tuán)隊(duì)開發(fā)的專門加速技術(shù)為這類系統(tǒng)的實(shí)用化鋪平了道路。
七、實(shí)驗(yàn)驗(yàn)證與消融研究
為了確保研究結(jié)論的可靠性,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)和消融研究。這就像科學(xué)家在發(fā)布新發(fā)現(xiàn)之前需要進(jìn)行反復(fù)驗(yàn)證一樣。
在零樣本預(yù)訓(xùn)練性能測試中,研究團(tuán)隊(duì)比較了Mono-InternVL在不同訓(xùn)練階段的表現(xiàn)。結(jié)果顯示,經(jīng)過語義學(xué)習(xí)階段后,模型在COCO Captions任務(wù)上的表現(xiàn)從87.3分提升到135.6分,這證明了高質(zhì)量合成數(shù)據(jù)的價(jià)值。這就像一個(gè)學(xué)生在得到專業(yè)指導(dǎo)后成績大幅提升一樣。
研究團(tuán)隊(duì)還專門測試了不同訓(xùn)練策略的效果。他們發(fā)現(xiàn),使用"增量調(diào)優(yōu)"(只訓(xùn)練新增的視覺專家)比"全量調(diào)優(yōu)"(訓(xùn)練整個(gè)模型)效果更好,這驗(yàn)證了保持原有語言能力的重要性。在一個(gè)對(duì)比實(shí)驗(yàn)中,增量調(diào)優(yōu)在多個(gè)任務(wù)上都獲得了顯著更好的表現(xiàn),比如在SQA-I任務(wù)上比全量調(diào)優(yōu)高出18.8分。
在數(shù)據(jù)規(guī)模影響的研究中,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在概念學(xué)習(xí)階段,增加數(shù)據(jù)量帶來的性能提升會(huì)逐漸放緩,但在語義學(xué)習(xí)和對(duì)齊學(xué)習(xí)階段,性能會(huì)隨著數(shù)據(jù)量增加而持續(xù)提升。這就像學(xué)習(xí)過程中的不同階段有不同的效率曲線。
注意力機(jī)制的可視化分析也提供了深入的洞察。研究團(tuán)隊(duì)發(fā)現(xiàn),在淺層網(wǎng)絡(luò)中,視覺信息主要在局部區(qū)域內(nèi)流動(dòng),類似于卷積神經(jīng)網(wǎng)絡(luò)的行為。而在深層網(wǎng)絡(luò)中,不同模態(tài)之間的交互變得更加頻繁和復(fù)雜。這種從局部到全局、從分離到融合的模式反映了多模態(tài)理解的本質(zhì)特征。
八、技術(shù)限制與未來展望
盡管Mono-InternVL-1.5取得了顯著成就,但研究團(tuán)隊(duì)也坦率地承認(rèn)了當(dāng)前方法的局限性。任何技術(shù)創(chuàng)新都不是完美無缺的,了解這些限制同樣重要。
首先是模型規(guī)模的限制。雖然Mono-InternVL-1.5在同等規(guī)模模型中表現(xiàn)優(yōu)異,但與一些超大規(guī)模的模塊化模型相比,在某些復(fù)雜任務(wù)上仍有差距。這就像一個(gè)多才多藝的個(gè)人雖然能力全面,但在特定專業(yè)領(lǐng)域可能不如專門的專家那樣精通。
在高分辨率圖像處理方面,雖然模型支持最高800萬像素的圖像,但在實(shí)際處理中,過高的分辨率會(huì)顯著增加計(jì)算成本。研究團(tuán)隊(duì)指出,這主要是因?yàn)楫?dāng)前的單體式架構(gòu)在處理極高分辨率圖像時(shí)需要更多的計(jì)算資源。
語言能力的保持也是一個(gè)需要持續(xù)關(guān)注的問題。雖然通過巧妙的訓(xùn)練策略,Mono-InternVL-1.5很好地保持了原有的語言能力,但在某些特定的NLP任務(wù)上仍然出現(xiàn)了輕微的性能下降。這提醒我們,在追求多模態(tài)能力的同時(shí),如何完美平衡各種能力仍然是一個(gè)挑戰(zhàn)。
展望未來,研究團(tuán)隊(duì)指出了幾個(gè)重要的發(fā)展方向。首先是進(jìn)一步提升數(shù)據(jù)效率,他們希望能夠用更少的高質(zhì)量數(shù)據(jù)達(dá)到更好的效果。其次是擴(kuò)展到更多模態(tài),比如音頻、視頻等,真正實(shí)現(xiàn)全模態(tài)的AI系統(tǒng)。
在應(yīng)用層面,研究團(tuán)隊(duì)相信Mono-InternVL類型的模型將在文檔分析、內(nèi)容創(chuàng)作、教育輔助等領(lǐng)域發(fā)揮重要作用。這些單體式模型的部署簡便性使得它們特別適合在邊緣設(shè)備或資源受限的環(huán)境中使用。
說到底,Mono-InternVL-1.5的成功證明了一個(gè)重要觀點(diǎn):在AI發(fā)展中,"更聰明地工作"往往比"更努力地工作"更重要。通過精心設(shè)計(jì)的架構(gòu)和訓(xùn)練策略,研究團(tuán)隊(duì)用更少的資源達(dá)到了更好的效果,這為整個(gè)AI社區(qū)提供了寶貴的經(jīng)驗(yàn)。
這項(xiàng)研究的價(jià)值不僅在于技術(shù)本身,更在于它展現(xiàn)的研究思路:如何在有限資源下追求最優(yōu)性能,如何在保持原有能力的同時(shí)獲得新能力,如何讓復(fù)雜的AI系統(tǒng)變得更實(shí)用。這些思考對(duì)于推動(dòng)AI技術(shù)的普及應(yīng)用具有深遠(yuǎn)意義。
對(duì)于普通人來說,這項(xiàng)研究預(yù)示著更智能、更便宜、更易用的AI工具即將到來。在不久的將來,我們可能會(huì)看到更多能夠同時(shí)理解圖片和文字、既聰明又高效的AI助手出現(xiàn)在日常生活中。而對(duì)于整個(gè)AI行業(yè)來說,Mono-InternVL系列模型為多模態(tài)AI的發(fā)展開辟了一條新路徑,證明了技術(shù)創(chuàng)新不僅要追求性能極限,更要關(guān)注實(shí)用性和可持續(xù)性。
Q&A
Q1:Mono-InternVL-1.5是什么?它和傳統(tǒng)的多模態(tài)AI有什么不同? A:Mono-InternVL-1.5是一個(gè)能同時(shí)理解圖片和文字的AI模型。傳統(tǒng)多模態(tài)AI就像雇傭兩個(gè)專家分別處理圖像和文字,而Mono-InternVL-1.5更像培養(yǎng)一個(gè)既會(huì)看圖又會(huì)寫字的全才。它將所有功能集成在一個(gè)統(tǒng)一系統(tǒng)中,部署更簡單,效率更高,但不會(huì)因?yàn)閷W(xué)習(xí)新技能而忘記原有能力。
Q2:這個(gè)模型會(huì)不會(huì)很貴很難用?普通人能接觸到嗎? A:恰恰相反,Mono-InternVL-1.5的設(shè)計(jì)目標(biāo)就是降低成本。相比第一代版本,它的訓(xùn)練數(shù)據(jù)需求減少了58%,推理速度提升了26%,這意味著運(yùn)行成本更低。研究團(tuán)隊(duì)已在GitHub開源了代碼和模型,未來很可能出現(xiàn)基于這項(xiàng)技術(shù)的各種應(yīng)用產(chǎn)品。
Q3:這項(xiàng)技術(shù)有什么實(shí)際用途?能解決什么現(xiàn)實(shí)問題? A:這項(xiàng)技術(shù)在文檔分析、內(nèi)容創(chuàng)作、教育輔助等方面很有潛力。比如它能幫你讀懂復(fù)雜的圖表、從照片中提取文字信息、為圖片生成準(zhǔn)確描述等。由于部署簡便,特別適合在手機(jī)、平板等設(shè)備上使用,讓AI多模態(tài)能力真正走向普通用戶。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。