這項(xiàng)由上海AI實(shí)驗(yàn)室聯(lián)合清華大學(xué)、南京大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、上海交通大學(xué)以及商湯科技共同完成的重磅研究,于2025年4月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)會(huì)議上。感興趣的讀者可以通過(guò)GitHub開(kāi)源地址https://github.com/OpenGVLab/InternVL以及HuggingFace模型庫(kù)https://huggingface.co/OpenGVLab/InternVL3-78B獲取完整的代碼和模型。這項(xiàng)研究的核心成果InternVL3代表了開(kāi)源多模態(tài)人工智能模型的一次重大飛躍。
想象一下,如果有一個(gè)AI助手既能看懂圖片、理解視頻,又能流利地與你對(duì)話,甚至還能解決復(fù)雜的數(shù)學(xué)題目和分析圖表數(shù)據(jù),這會(huì)是什么樣的體驗(yàn)?傳統(tǒng)的AI模型就像專業(yè)化的工匠,要么擅長(zhǎng)處理文字,要么擅長(zhǎng)識(shí)別圖像,很少有能真正融會(huì)貫通的"全才"。而InternVL3的出現(xiàn),就像是AI界的"文武雙全"高手,打破了這種局限性。
過(guò)去制造這種多模態(tài)AI就像是先建造一座專門(mén)用來(lái)處理文字的工廠,然后再想辦法在旁邊添加一個(gè)圖像處理車間,最后用各種復(fù)雜的管道把它們連接起來(lái)。這種"后裝修"的方式不僅復(fù)雜,而且往往效果不佳,就像把兩個(gè)不同風(fēng)格的房間強(qiáng)行打通,總是顯得不那么協(xié)調(diào)。InternVL3團(tuán)隊(duì)則采用了完全不同的思路——從一開(kāi)始就設(shè)計(jì)一個(gè)既能處理文字又能理解圖像的"全能工廠"。
這種創(chuàng)新設(shè)計(jì)讓InternVL3在多項(xiàng)評(píng)測(cè)中表現(xiàn)卓越。在被譽(yù)為多模態(tài)AI"高考"的MMMU基準(zhǔn)測(cè)試中,InternVL3-78B獲得了72.2分的成績(jī),超越了之前所有的開(kāi)源模型,甚至能與ChatGPT-4o、Claude 3.5 Sonnet等頂級(jí)商業(yè)模型一較高下。更令人印象深刻的是,研究團(tuán)隊(duì)將所有的訓(xùn)練數(shù)據(jù)和模型權(quán)重完全開(kāi)源,為整個(gè)AI社區(qū)的發(fā)展貢獻(xiàn)了寶貴資源。
一、原生多模態(tài)預(yù)訓(xùn)練:從根本上重新思考AI的學(xué)習(xí)方式
傳統(tǒng)的多模態(tài)AI模型構(gòu)建過(guò)程就像是訓(xùn)練一個(gè)專門(mén)的翻譯員,先讓他精通某種語(yǔ)言,然后再教他理解圖像,最后想辦法讓他把這兩種技能結(jié)合起來(lái)。這種方法的問(wèn)題在于,這個(gè)"翻譯員"在學(xué)習(xí)新技能時(shí),很容易忘記或弱化之前掌握的能力,就像一個(gè)數(shù)學(xué)高手突然開(kāi)始學(xué)畫(huà)畫(huà),可能會(huì)發(fā)現(xiàn)自己的計(jì)算能力有所下降。
InternVL3采用的原生多模態(tài)預(yù)訓(xùn)練方法,則像是從小就同時(shí)學(xué)習(xí)多種語(yǔ)言的孩子。研究團(tuán)隊(duì)讓模型從一開(kāi)始就接觸文字和圖像兩種信息,讓它在同一個(gè)"成長(zhǎng)環(huán)境"中自然地學(xué)會(huì)處理這兩種截然不同的數(shù)據(jù)類型。這種方法的優(yōu)勢(shì)在于,模型不需要經(jīng)歷"遺忘-重新學(xué)習(xí)"的痛苦過(guò)程,而是能夠自然地發(fā)展出統(tǒng)一的理解框架。
具體來(lái)說(shuō),InternVL3的訓(xùn)練過(guò)程就像是給學(xué)生提供一本圖文并茂的綜合教材,而不是先讓他們讀純文字書(shū),再讓他們看圖畫(huà)冊(cè)。在訓(xùn)練過(guò)程中,模型同時(shí)接收大約200億個(gè)來(lái)自文本的訓(xùn)練樣本和150億個(gè)來(lái)自多模態(tài)數(shù)據(jù)的訓(xùn)練樣本。這種1:3的比例設(shè)計(jì)經(jīng)過(guò)了大量實(shí)驗(yàn)驗(yàn)證,確保模型既不會(huì)因?yàn)槲淖钟?xùn)練不足而影響語(yǔ)言能力,也不會(huì)因?yàn)槎嗄B(tài)訓(xùn)練過(guò)度而喪失文本處理的精確性。
研究團(tuán)隊(duì)還引入了一種稱為"平方平均"的權(quán)重策略,這就像是在考試中給不同長(zhǎng)度的答案分配合理的分?jǐn)?shù)。傳統(tǒng)方法要么偏向給短答案高分,要么偏向給長(zhǎng)答案高分,而平方平均策略能夠更公平地評(píng)估不同類型的回答,避免模型產(chǎn)生長(zhǎng)度偏見(jiàn)。
二、變長(zhǎng)視覺(jué)位置編碼:讓AI擁有更靈活的"視覺(jué)記憶"
人類在閱讀一本厚厚的圖文書(shū)籍時(shí),能夠輕松記住前面章節(jié)的圖片內(nèi)容,并將其與后面的文字信息聯(lián)系起來(lái)。但對(duì)于AI模型來(lái)說(shuō),處理這種長(zhǎng)篇幅的多模態(tài)內(nèi)容就像是要求一個(gè)人同時(shí)記住一長(zhǎng)串電話號(hào)碼和一系列復(fù)雜圖案的組合,是一項(xiàng)極其困難的挑戰(zhàn)。
傳統(tǒng)的AI模型在處理視覺(jué)信息時(shí),就像是用固定間距的頁(yè)碼給每張圖片編號(hào)。不管圖片內(nèi)容多么豐富復(fù)雜,都按照1、2、3、4的順序嚴(yán)格編號(hào)。這種方法的問(wèn)題在于,當(dāng)處理長(zhǎng)文檔或多圖片序列時(shí),模型很容易"失憶",忘記前面看過(guò)的內(nèi)容。
InternVL3引入的變長(zhǎng)視覺(jué)位置編碼(V2PE)技術(shù),就像是給AI裝上了一個(gè)"智能書(shū)簽系統(tǒng)"。這個(gè)系統(tǒng)不再使用固定間距的編號(hào),而是根據(jù)內(nèi)容的重要性和復(fù)雜程度靈活調(diào)整"頁(yè)碼間距"。對(duì)于文字內(nèi)容,系統(tǒng)仍然使用傳統(tǒng)的1、2、3編號(hào)方式,但對(duì)于圖像內(nèi)容,則使用更小的增量,比如0.5、0.25、0.125等。
這種設(shè)計(jì)的巧妙之處在于,它允許模型在有限的"記憶空間"內(nèi)容納更多的視覺(jué)信息。就像是在固定大小的書(shū)架上,通過(guò)調(diào)整書(shū)本的擺放方式,能夠放置更多內(nèi)容。在訓(xùn)練過(guò)程中,系統(tǒng)會(huì)隨機(jī)選擇不同的增量值(從1到1/256),讓模型學(xué)會(huì)適應(yīng)各種不同的"記憶密度"。在實(shí)際應(yīng)用時(shí),系統(tǒng)可以根據(jù)輸入內(nèi)容的長(zhǎng)度和復(fù)雜程度,自動(dòng)選擇最合適的編碼方式。
實(shí)驗(yàn)結(jié)果顯示,使用V2PE技術(shù)的模型在幾乎所有評(píng)測(cè)指標(biāo)上都有顯著提升。即使在主要涉及短上下文的任務(wù)中,相對(duì)較小的增量值也能帶來(lái)最佳性能,這說(shuō)明這種技術(shù)的優(yōu)勢(shì)不僅限于長(zhǎng)文檔處理,而是能夠全面提升模型的理解能力。
三、先進(jìn)的后訓(xùn)練技術(shù):讓AI變得更加"善解人意"
即使擁有了強(qiáng)大的基礎(chǔ)能力,AI模型仍然需要經(jīng)過(guò)精心的"調(diào)教"才能真正理解人類的需求和偏好。這個(gè)過(guò)程就像是培養(yǎng)一個(gè)天賦異稟的學(xué)生成為優(yōu)秀的助手,需要通過(guò)有針對(duì)性的訓(xùn)練來(lái)提升其實(shí)用性和可靠性。
InternVL3的后訓(xùn)練過(guò)程分為兩個(gè)階段:監(jiān)督微調(diào)和混合偏好優(yōu)化。監(jiān)督微調(diào)階段就像是給學(xué)生提供標(biāo)準(zhǔn)答案,讓他們學(xué)習(xí)什么樣的回答是高質(zhì)量的。研究團(tuán)隊(duì)收集了大約2170萬(wàn)個(gè)高質(zhì)量的訓(xùn)練樣本,涵蓋了工具使用、3D場(chǎng)景理解、圖形用戶界面操作、科學(xué)圖表分析、創(chuàng)意寫(xiě)作和多模態(tài)推理等多個(gè)領(lǐng)域。這比前一代模型的1630萬(wàn)樣本大幅增加,為模型提供了更豐富的學(xué)習(xí)材料。
在這個(gè)階段,研究團(tuán)隊(duì)還采用了幾項(xiàng)創(chuàng)新技術(shù)來(lái)提升訓(xùn)練效果。隨機(jī)JPEG壓縮技術(shù)模擬了現(xiàn)實(shí)世界中圖像質(zhì)量的變化,讓模型學(xué)會(huì)處理各種清晰度的圖片。平方損失重加權(quán)策略則確保模型不會(huì)因?yàn)橛?xùn)練樣本長(zhǎng)度的差異而產(chǎn)生偏見(jiàn)。多模態(tài)數(shù)據(jù)打包技術(shù)提高了訓(xùn)練效率,讓模型能夠更有效地學(xué)習(xí)不同類型的信息。
混合偏好優(yōu)化階段則更像是培養(yǎng)學(xué)生的判斷力和推理能力。傳統(tǒng)的訓(xùn)練方法只是讓模型學(xué)會(huì)預(yù)測(cè)下一個(gè)詞語(yǔ),但在實(shí)際應(yīng)用中,模型需要基于自己之前的輸出繼續(xù)生成內(nèi)容。這種差異就像是學(xué)習(xí)時(shí)有標(biāo)準(zhǔn)答案參考,但考試時(shí)需要完全依靠自己,往往會(huì)導(dǎo)致性能下降。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了混合偏好優(yōu)化技術(shù),結(jié)合了偏好損失、質(zhì)量損失和生成損失三種不同的訓(xùn)練目標(biāo)。偏好損失教會(huì)模型區(qū)分好答案和壞答案,質(zhì)量損失幫助模型理解單個(gè)回答的絕對(duì)質(zhì)量,生成損失則確保模型能夠生成高質(zhì)量的內(nèi)容。這種綜合訓(xùn)練方法顯著提升了模型的推理能力,特別是在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。
四、測(cè)試時(shí)擴(kuò)展策略:讓AI在"考試時(shí)"也能超常發(fā)揮
人類在面對(duì)困難問(wèn)題時(shí),往往會(huì)嘗試多種不同的解題方法,然后選擇最好的答案。InternVL3也采用了類似的策略,通過(guò)測(cè)試時(shí)擴(kuò)展技術(shù)來(lái)提升模型在復(fù)雜任務(wù)上的表現(xiàn)。
這種方法的核心是使用一個(gè)叫做VisualPRM的"評(píng)判員"模型。當(dāng)面對(duì)數(shù)學(xué)或推理問(wèn)題時(shí),InternVL3會(huì)生成多個(gè)不同的解答方案,然后由VisualPRM對(duì)每個(gè)方案的每個(gè)步驟進(jìn)行評(píng)分。這個(gè)過(guò)程就像是請(qǐng)一位經(jīng)驗(yàn)豐富的老師來(lái)檢查學(xué)生的作業(yè),不僅看最終答案,還要評(píng)估每個(gè)解題步驟的正確性。
VisualPRM的工作方式很有意思,它將問(wèn)題解決過(guò)程轉(zhuǎn)化為多輪對(duì)話的形式。圖像、問(wèn)題和第一步解答構(gòu)成第一輪對(duì)話,然后每個(gè)后續(xù)步驟都形成新的對(duì)話輪次。在每輪對(duì)話中,VisualPRM需要判斷當(dāng)前步驟是正確(+)還是錯(cuò)誤(-)。最終,通過(guò)平均所有步驟的得分來(lái)評(píng)估整個(gè)解答方案的質(zhì)量。
實(shí)驗(yàn)結(jié)果顯示,這種方法帶來(lái)了顯著的性能提升。即使是參數(shù)相對(duì)較少的模型,在使用"8選最優(yōu)"策略后,推理性能也有大幅改善。例如,在MathVerse數(shù)據(jù)集的純視覺(jué)部分,InternVL3-38B和InternVL3-78B分別獲得了6.0和3.2個(gè)百分點(diǎn)的提升。這證明了測(cè)試時(shí)擴(kuò)展策略的有效性,也為提升AI模型性能提供了新的思路。
五、基礎(chǔ)設(shè)施優(yōu)化:為大模型訓(xùn)練搭建高效的"生產(chǎn)線"
訓(xùn)練像InternVL3這樣的大型AI模型,就像是運(yùn)營(yíng)一個(gè)復(fù)雜的現(xiàn)代化工廠,需要協(xié)調(diào)成千上萬(wàn)的計(jì)算單元同時(shí)工作。研究團(tuán)隊(duì)擴(kuò)展了InternEVO框架,專門(mén)針對(duì)多模態(tài)模型的訓(xùn)練需求進(jìn)行了優(yōu)化。
這個(gè)框架的創(chuàng)新之處在于為不同的模型組件(視覺(jué)編碼器、多層感知機(jī)、語(yǔ)言模型)提供了靈活且解耦的分片策略。就像是在工廠中為不同的生產(chǎn)線設(shè)計(jì)專門(mén)的物流系統(tǒng),確保每個(gè)部門(mén)都能高效運(yùn)轉(zhuǎn),同時(shí)最大程度地減少相互干擾。
多模態(tài)模型訓(xùn)練面臨的一個(gè)特殊挑戰(zhàn)是計(jì)算負(fù)載的不平衡。由于不同訓(xùn)練樣本包含的視覺(jué)和文本信息比例差異很大,就像是工廠生產(chǎn)線上有時(shí)需要處理簡(jiǎn)單產(chǎn)品,有時(shí)需要處理復(fù)雜產(chǎn)品,容易造成某些工作站過(guò)載而其他工作站閑置。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一套動(dòng)態(tài)負(fù)載均衡技術(shù),能夠根據(jù)實(shí)際需求動(dòng)態(tài)調(diào)整計(jì)算資源的分配。這種方法支持多種并行策略的組合,包括數(shù)據(jù)并行、張量并行、序列并行和流水線并行,確保所有計(jì)算資源都能得到充分利用。
得益于這些優(yōu)化,InternEVO框架能夠支持高達(dá)32K標(biāo)記的序列長(zhǎng)度,同時(shí)在相同計(jì)算預(yù)算下,InternVL3的訓(xùn)練速度比前一代模型提升了50%到200%。這種效率提升不僅降低了訓(xùn)練成本,也為研究團(tuán)隊(duì)嘗試更多實(shí)驗(yàn)和優(yōu)化提供了可能。
六、全面的性能評(píng)估:在多個(gè)"考試科目"中展現(xiàn)實(shí)力
為了全面評(píng)估InternVL3的能力,研究團(tuán)隊(duì)在多個(gè)不同類型的基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,就像是讓一個(gè)學(xué)生參加包括語(yǔ)文、數(shù)學(xué)、外語(yǔ)、科學(xué)等多個(gè)科目的綜合考試。
在多學(xué)科推理能力測(cè)試MMMU中,InternVL3-78B獲得了72.2分的優(yōu)異成績(jī),不僅超越了所有開(kāi)源模型,也與頂級(jí)商業(yè)模型形成了有力競(jìng)爭(zhēng)。這個(gè)測(cè)試涵蓋了藝術(shù)、商業(yè)、科學(xué)、健康醫(yī)學(xué)、人文社科、社會(huì)科學(xué)等多個(gè)學(xué)科,要求模型具備跨領(lǐng)域的知識(shí)整合能力。
在數(shù)學(xué)推理方面,InternVL3在MathVista、MathVision、MathVerse等多個(gè)測(cè)試中都表現(xiàn)出色。特別值得一提的是,在MathVista測(cè)試中,InternVL3-78B達(dá)到了接近79%的正確率,顯示出強(qiáng)大的數(shù)學(xué)圖像理解和推理能力。這些測(cè)試不僅要求模型能夠理解數(shù)學(xué)概念,還要能夠解讀圖表、幾何圖形和復(fù)雜的數(shù)學(xué)表達(dá)式。
在文檔理解和光學(xué)字符識(shí)別(OCR)任務(wù)中,InternVL3也展現(xiàn)出了卓越的性能。在OCRBench測(cè)試中,InternVL3-78B獲得了906分的高分,在處理各種文檔類型、圖表分析和信息提取任務(wù)中都表現(xiàn)優(yōu)異。這種能力對(duì)于實(shí)際應(yīng)用場(chǎng)景具有重要意義,因?yàn)楝F(xiàn)實(shí)世界中的很多任務(wù)都涉及從圖像中提取和理解文本信息。
多圖像理解能力是InternVL3的另一個(gè)亮點(diǎn)。在BLINK、Mantis-Eval、MMIU等測(cè)試中,模型展現(xiàn)出了處理復(fù)雜多圖像關(guān)系和進(jìn)行跨圖像推理的能力。這種能力讓AI能夠像人類一樣,將來(lái)自不同圖像的信息整合起來(lái),形成完整的理解。
實(shí)際場(chǎng)景理解測(cè)試進(jìn)一步證明了InternVL3的實(shí)用價(jià)值。在RealWorldQA、MME-RealWorld、WildVision和R-Bench等測(cè)試中,模型展現(xiàn)出了處理現(xiàn)實(shí)世界復(fù)雜場(chǎng)景的能力。這些測(cè)試模擬了真實(shí)環(huán)境中可能遇到的各種視覺(jué)理解任務(wù),對(duì)模型的泛化能力提出了很高要求。
七、多語(yǔ)言和視頻理解:拓展AI的"視野"與"語(yǔ)言天賦"
在全球化的今天,一個(gè)真正有用的AI助手必須能夠理解多種語(yǔ)言,并且具備處理動(dòng)態(tài)視頻內(nèi)容的能力。InternVL3在這兩個(gè)方面都表現(xiàn)出了令人印象深刻的能力。
在多語(yǔ)言理解測(cè)試中,InternVL3不僅在英語(yǔ)和中文任務(wù)上表現(xiàn)優(yōu)異,在葡萄牙語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)和俄語(yǔ)等多種語(yǔ)言的多模態(tài)任務(wù)中也展現(xiàn)出了強(qiáng)大的跨語(yǔ)言理解能力。這種能力的獲得并非偶然,而是源于訓(xùn)練數(shù)據(jù)的精心設(shè)計(jì)和模型架構(gòu)的全面優(yōu)化。
視頻理解能力是現(xiàn)代多模態(tài)AI的重要標(biāo)志。InternVL3在Video-MME、MVBench、MMBench-Video、MLVU、LongVideoBench和CG-Bench等多個(gè)視頻理解基準(zhǔn)測(cè)試中都取得了顯著進(jìn)步。特別是在長(zhǎng)視頻理解任務(wù)中,模型展現(xiàn)出了捕捉時(shí)序信息和理解復(fù)雜視頻內(nèi)容的能力。
這些能力的提升得益于訓(xùn)練過(guò)程中對(duì)視頻數(shù)據(jù)的特殊處理。研究團(tuán)隊(duì)為不同的測(cè)試采用了不同的幀數(shù)設(shè)置,從16幀到64幀不等,并選擇最佳結(jié)果進(jìn)行報(bào)告。這種靈活的處理方式確保了模型能夠在不同類型的視頻任務(wù)中都發(fā)揮出最佳性能。
八、專業(yè)領(lǐng)域應(yīng)用:從圖形界面到空間推理的全方位突破
除了通用能力之外,InternVL3還在多個(gè)專業(yè)領(lǐng)域展現(xiàn)出了實(shí)用的應(yīng)用價(jià)值。在圖形用戶界面(GUI)理解任務(wù)中,模型能夠準(zhǔn)確識(shí)別和定位屏幕元素,為自動(dòng)化操作和智能助手應(yīng)用奠定了基礎(chǔ)。
在ScreenSpot和ScreenSpot-V2這兩個(gè)具有挑戰(zhàn)性的GUI基準(zhǔn)測(cè)試中,InternVL3的表現(xiàn)超越了許多專門(mén)針對(duì)界面理解設(shè)計(jì)的模型。這種能力的意義在于,它為開(kāi)發(fā)能夠自動(dòng)操作計(jì)算機(jī)界面的AI助手鋪平了道路,可能會(huì)改變我們與計(jì)算機(jī)交互的方式。
空間推理能力是另一個(gè)重要的專業(yè)領(lǐng)域。在VSI-Bench(視覺(jué)空間智能基準(zhǔn))測(cè)試中,InternVL3展現(xiàn)出了構(gòu)建三維環(huán)境心理表征的能力。這種能力對(duì)于自動(dòng)駕駛、機(jī)器人導(dǎo)航和增強(qiáng)現(xiàn)實(shí)等應(yīng)用具有重要意義。
特別值得注意的是,InternVL3在物體計(jì)數(shù)、絕對(duì)距離估計(jì)、相對(duì)距離估計(jì)和外觀順序預(yù)測(cè)等子任務(wù)中都表現(xiàn)出色。這些看似簡(jiǎn)單的任務(wù)實(shí)際上需要模型具備復(fù)雜的空間理解和推理能力,InternVL3的優(yōu)異表現(xiàn)證明了其在空間智能方面的突破。
九、語(yǔ)言能力保持:多模態(tài)訓(xùn)練不忘"文字功底"
一個(gè)常見(jiàn)的擔(dān)憂是,當(dāng)AI模型學(xué)習(xí)處理圖像和視頻時(shí),是否會(huì)影響其原有的語(yǔ)言處理能力。就像擔(dān)心一個(gè)原本擅長(zhǎng)寫(xiě)作的人在學(xué)習(xí)繪畫(huà)后是否會(huì)影響文字表達(dá)能力一樣。InternVL3的實(shí)驗(yàn)結(jié)果有力地證明了,通過(guò)合理的訓(xùn)練策略,模型不僅能夠獲得強(qiáng)大的多模態(tài)能力,還能保持甚至提升其語(yǔ)言處理性能。
在MMLU、CMMLU、C-Eval、GAOKAO-Bench等多個(gè)語(yǔ)言理解基準(zhǔn)測(cè)試中,InternVL3系列模型的表現(xiàn)甚至超過(guò)了同規(guī)模的純語(yǔ)言模型。這種現(xiàn)象的出現(xiàn)主要?dú)w功于三個(gè)因素:訓(xùn)練數(shù)據(jù)中包含約25%的純文本內(nèi)容、多模態(tài)預(yù)訓(xùn)練過(guò)程中的聯(lián)合參數(shù)優(yōu)化,以及后訓(xùn)練階段對(duì)高質(zhì)量文本語(yǔ)料的廣泛使用。
更有趣的是,在數(shù)學(xué)推理、代碼生成和常識(shí)問(wèn)答等任務(wù)中,InternVL3的表現(xiàn)也顯著優(yōu)于對(duì)照的純語(yǔ)言模型。這表明多模態(tài)訓(xùn)練帶來(lái)的不僅僅是視覺(jué)理解能力,還可能增強(qiáng)了模型的整體推理和理解能力。
十、深入的技術(shù)剖析:揭秘背后的設(shè)計(jì)智慧
為了更好地理解InternVL3成功的原因,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),就像是醫(yī)生通過(guò)各種檢查來(lái)診斷病因一樣,這些實(shí)驗(yàn)幫助我們理解每個(gè)技術(shù)組件的具體貢獻(xiàn)。
原生多模態(tài)預(yù)訓(xùn)練的有效性通過(guò)對(duì)比實(shí)驗(yàn)得到了充分驗(yàn)證。研究團(tuán)隊(duì)使用相同的模型架構(gòu)、初始化參數(shù)和訓(xùn)練數(shù)據(jù),僅僅將傳統(tǒng)的多階段訓(xùn)練流程替換為原生多模態(tài)預(yù)訓(xùn)練,就觀察到了顯著的性能提升。更重要的是,即使不進(jìn)行后續(xù)的指令調(diào)優(yōu),使用原生多模態(tài)預(yù)訓(xùn)練的模型就已經(jīng)展現(xiàn)出了強(qiáng)大的多模態(tài)能力。
變長(zhǎng)視覺(jué)位置編碼(V2PE)的效果評(píng)估揭示了一個(gè)有趣的現(xiàn)象:即使在主要涉及短上下文的任務(wù)中,使用較小的位置增量值(如1/4、1/16)也能帶來(lái)性能提升。這說(shuō)明V2PE的優(yōu)勢(shì)不僅限于長(zhǎng)文檔處理,而是能夠從根本上改善模型對(duì)視覺(jué)信息的理解和記憶方式。
混合偏好優(yōu)化(MPO)技術(shù)的效果在推理任務(wù)中表現(xiàn)得特別明顯。實(shí)驗(yàn)結(jié)果顯示,使用MPO技術(shù)的模型在七個(gè)多模態(tài)推理基準(zhǔn)測(cè)試中都獲得了顯著提升,其中InternVL3-78B和InternVL3-38B分別提升了4.1和4.5個(gè)百分點(diǎn)。關(guān)鍵在于,MPO使用的訓(xùn)練數(shù)據(jù)是SFT數(shù)據(jù)的子集,這意味著性能提升主要來(lái)自訓(xùn)練算法的改進(jìn),而非數(shù)據(jù)質(zhì)量的提升。
十一、技術(shù)創(chuàng)新的深層意義:重新定義AI模型的訓(xùn)練范式
InternVL3的技術(shù)創(chuàng)新不僅僅是性能數(shù)字的提升,更重要的是它代表了AI模型訓(xùn)練范式的根本性轉(zhuǎn)變。傳統(tǒng)的"先語(yǔ)言后視覺(jué)"訓(xùn)練方式就像是先教會(huì)一個(gè)人閱讀,然后再教他看圖,這種方式雖然看似合理,但實(shí)際上忽略了人類學(xué)習(xí)的自然規(guī)律。
人類嬰兒在學(xué)習(xí)語(yǔ)言的同時(shí),也在學(xué)習(xí)理解視覺(jué)世界,這兩種能力是相互促進(jìn)、共同發(fā)展的。InternVL3的原生多模態(tài)預(yù)訓(xùn)練方法更接近這種自然的學(xué)習(xí)過(guò)程,讓模型從一開(kāi)始就建立起統(tǒng)一的多模態(tài)理解框架。
這種范式轉(zhuǎn)變的意義遠(yuǎn)超出了技術(shù)層面。它表明我們對(duì)AI學(xué)習(xí)過(guò)程的理解正在不斷深化,從簡(jiǎn)單的"技能疊加"向更加整體和系統(tǒng)的"能力培養(yǎng)"轉(zhuǎn)變。這種理念的轉(zhuǎn)變可能會(huì)影響未來(lái)AI模型的設(shè)計(jì)思路,推動(dòng)整個(gè)領(lǐng)域向更加自然和高效的方向發(fā)展。
變長(zhǎng)視覺(jué)位置編碼技術(shù)的引入也體現(xiàn)了對(duì)AI"記憶機(jī)制"的深度思考。傳統(tǒng)的固定位置編碼就像是用相同大小的盒子來(lái)存儲(chǔ)不同類型的物品,而V2PE則像是根據(jù)物品的特性選擇合適大小的存儲(chǔ)空間。這種靈活性不僅提高了存儲(chǔ)效率,更重要的是它讓模型能夠更好地理解不同模態(tài)信息之間的關(guān)系。
十二、實(shí)際應(yīng)用前景:從科研成果到實(shí)用工具的轉(zhuǎn)化
InternVL3的開(kāi)源發(fā)布為整個(gè)AI社區(qū)帶來(lái)了寶貴的資源,也為各種實(shí)際應(yīng)用的開(kāi)發(fā)奠定了基礎(chǔ)。在教育領(lǐng)域,具備強(qiáng)大多模態(tài)理解能力的AI助手可以幫助學(xué)生理解復(fù)雜的圖表、解決數(shù)學(xué)問(wèn)題,甚至分析歷史文獻(xiàn)中的圖像資料。
在醫(yī)療健康領(lǐng)域,InternVL3的文檔理解和圖像分析能力可以應(yīng)用于醫(yī)學(xué)影像分析、病歷信息提取和醫(yī)學(xué)文獻(xiàn)理解等場(chǎng)景。模型能夠同時(shí)處理文字描述和醫(yī)學(xué)圖像,為醫(yī)生提供更加全面的輔助診斷信息。
商業(yè)和工業(yè)應(yīng)用方面,GUI理解能力為自動(dòng)化辦公和智能客服開(kāi)辟了新的可能性。企業(yè)可以基于InternVL3開(kāi)發(fā)能夠自動(dòng)操作各種軟件界面的AI助手,大幅提升工作效率。同時(shí),強(qiáng)大的圖表分析能力也為商業(yè)數(shù)據(jù)分析和報(bào)告生成提供了新的工具。
在內(nèi)容創(chuàng)作和媒體行業(yè),InternVL3的多語(yǔ)言和視頻理解能力可以應(yīng)用于自動(dòng)字幕生成、內(nèi)容審核、視頻摘要制作等場(chǎng)景。模型能夠理解不同語(yǔ)言的視頻內(nèi)容,為全球化的內(nèi)容分發(fā)提供支持。
科研領(lǐng)域同樣可以從InternVL3的能力中受益。研究人員可以利用模型的文檔理解能力來(lái)分析大量的學(xué)術(shù)文獻(xiàn),或者使用其圖像分析能力來(lái)處理實(shí)驗(yàn)數(shù)據(jù)和科學(xué)圖像。這種AI輔助的研究方式可能會(huì)顯著加速科學(xué)發(fā)現(xiàn)的進(jìn)程。
說(shuō)到底,InternVL3的意義不僅在于它在各種測(cè)試中取得的優(yōu)異成績(jī),更在于它展示了AI技術(shù)發(fā)展的新方向。通過(guò)原生多模態(tài)預(yù)訓(xùn)練、變長(zhǎng)視覺(jué)位置編碼、混合偏好優(yōu)化等創(chuàng)新技術(shù),InternVL3證明了開(kāi)源模型同樣可以達(dá)到世界領(lǐng)先水平。
歸根結(jié)底,這項(xiàng)研究最重要的貢獻(xiàn)在于它的開(kāi)放性。研究團(tuán)隊(duì)將所有的訓(xùn)練數(shù)據(jù)、模型權(quán)重和代碼完全開(kāi)源,為全球的研究者和開(kāi)發(fā)者提供了寶貴的資源。這種開(kāi)放的精神不僅推動(dòng)了技術(shù)的快速傳播和改進(jìn),也體現(xiàn)了科學(xué)研究應(yīng)有的合作共享理念。
對(duì)于普通人來(lái)說(shuō),InternVL3代表的技術(shù)進(jìn)步意味著我們將很快看到更加智能、更加實(shí)用的AI助手出現(xiàn)在日常生活中。這些AI助手不再是只會(huì)聊天的工具,而是真正能夠理解我們的視覺(jué)世界、幫助我們處理復(fù)雜任務(wù)的得力助手。當(dāng)然,技術(shù)的發(fā)展也提醒我們需要思考AI在社會(huì)中的角色和影響,確保這些強(qiáng)大的工具能夠真正造福人類社會(huì)。
對(duì)于想要深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)GitHub開(kāi)源項(xiàng)目https://github.com/OpenGVLab/InternVL獲取完整的代碼實(shí)現(xiàn),或者通過(guò)HuggingFace模型庫(kù)https://huggingface.co/OpenGVLab/InternVL3-78B直接體驗(yàn)?zāi)P偷膹?qiáng)大能力。這種開(kāi)放共享的研究模式,正是推動(dòng)AI技術(shù)持續(xù)進(jìn)步的重要?jiǎng)恿Α?/p>
Q&A
Q1:InternVL3與傳統(tǒng)的多模態(tài)AI模型有什么根本區(qū)別? A:傳統(tǒng)模型是先訓(xùn)練語(yǔ)言能力再"貼"上視覺(jué)功能,像后裝修改造房屋。InternVL3采用原生多模態(tài)預(yù)訓(xùn)練,從一開(kāi)始就同時(shí)學(xué)習(xí)文字和圖像,像從小就雙語(yǔ)成長(zhǎng)的孩子,避免了能力沖突和遺忘問(wèn)題,整體表現(xiàn)更協(xié)調(diào)。
Q2:普通人什么時(shí)候能使用到InternVL3技術(shù)? A:由于完全開(kāi)源,開(kāi)發(fā)者現(xiàn)在就可以基于InternVL3構(gòu)建應(yīng)用。普通用戶可能很快就會(huì)在教育軟件、辦公助手、智能客服等產(chǎn)品中體驗(yàn)到這項(xiàng)技術(shù),特別是在需要同時(shí)理解圖片和文字的場(chǎng)景中。
Q3:InternVL3在哪些實(shí)際任務(wù)中表現(xiàn)最突出? A:表現(xiàn)最突出的是多學(xué)科推理(MMMU得分72.2)、數(shù)學(xué)問(wèn)題解決、文檔理解、多圖像分析和GUI界面操作。特別擅長(zhǎng)處理需要綜合理解圖表、文字和邏輯關(guān)系的復(fù)雜任務(wù),這些正是日常工作學(xué)習(xí)中最常遇到的場(chǎng)景。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。