這項(xiàng)由加州大學(xué)圣芭芭拉分校的王韋志團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng)種子視覺(jué)團(tuán)隊(duì)和英偉達(dá)研究院完成的研究,發(fā)表于2025年4月,感興趣的讀者可以通過(guò)arXiv:2504.00595v2訪(fǎng)問(wèn)完整論文。當(dāng)今人工智能領(lǐng)域,訓(xùn)練一個(gè)能看懂圖片、理解文字的多模態(tài)大模型就像建造一座摩天大樓,通常需要巨額資金和數(shù)千小時(shí)的GPU計(jì)算時(shí)間。然而,這個(gè)研究團(tuán)隊(duì)卻用了一種全新的"建筑方法",僅用220個(gè)A100 GPU小時(shí)就訓(xùn)練出了性能卓越的Open-Qwen2VL模型,這就像用搭積木的方式建成了摩天大樓,效率提升令人震驚。
研究團(tuán)隊(duì)在現(xiàn)有的多模態(tài)大語(yǔ)言模型訓(xùn)練中發(fā)現(xiàn)了一個(gè)重要問(wèn)題:盡管許多頂尖模型聲稱(chēng)開(kāi)源,但實(shí)際上它們的"秘密配方"——包括數(shù)據(jù)過(guò)濾技術(shù)、序列打包腳本、預(yù)訓(xùn)練數(shù)據(jù)和訓(xùn)練代碼庫(kù)等關(guān)鍵技術(shù)細(xì)節(jié)——都嚴(yán)格保密。這種情況就像餐廳只給你看菜單,卻不告訴你具體的烹飪方法和食材來(lái)源,讓學(xué)術(shù)機(jī)構(gòu)很難復(fù)現(xiàn)這些模型。更重要的是,這些模型的訓(xùn)練通常需要數(shù)千甚至上萬(wàn)小時(shí)的GPU時(shí)間,這對(duì)于資源有限的學(xué)術(shù)機(jī)構(gòu)來(lái)說(shuō)幾乎是天方夜譚。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了Open-Qwen2VL,一個(gè)真正"完全開(kāi)源"的2B參數(shù)多模態(tài)大語(yǔ)言模型。他們重新定義了"完全開(kāi)源"的標(biāo)準(zhǔn),不僅要公開(kāi)模型本身,還要開(kāi)放訓(xùn)練代碼庫(kù)、詳細(xì)的數(shù)據(jù)過(guò)濾技術(shù),以及所有預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)。這就像一位大廚不僅愿意分享成品料理,還詳細(xì)公開(kāi)了完整的食譜、烹飪技巧和食材采購(gòu)渠道。
一、革命性的訓(xùn)練效率突破
Open-Qwen2VL最令人驚嘆的成就在于其訓(xùn)練效率。傳統(tǒng)的多模態(tài)大模型訓(xùn)練就像用最昂貴的食材制作一桌豪華大餐,需要消耗巨量的計(jì)算資源。比如Qwen2-VL需要1.4萬(wàn)億個(gè)多模態(tài)令牌進(jìn)行預(yù)訓(xùn)練,而Open-Qwen2VL僅使用了50億個(gè)精心篩選的令牌,相當(dāng)于只用了Qwen2-VL訓(xùn)練數(shù)據(jù)的0.36%。這種差異就像用一小袋精選的香料做出了與整個(gè)香料庫(kù)同樣美味的菜肴。
這種效率的提升主要來(lái)自三個(gè)關(guān)鍵創(chuàng)新。首先是動(dòng)態(tài)圖像分辨率策略,研究團(tuán)隊(duì)在預(yù)訓(xùn)練階段使用較低的圖像分辨率(144個(gè)視覺(jué)令牌),然后在微調(diào)階段提升到完整分辨率(729個(gè)視覺(jué)令牌)。這種方法就像先用簡(jiǎn)筆畫(huà)學(xué)習(xí)繪畫(huà)基礎(chǔ),然后再轉(zhuǎn)向精細(xì)繪畫(huà),既節(jié)省了時(shí)間,又保證了最終效果。
其次是多模態(tài)序列打包技術(shù),這是解決訓(xùn)練效率問(wèn)題的關(guān)鍵創(chuàng)新。傳統(tǒng)的訓(xùn)練方法就像一個(gè)個(gè)單獨(dú)包裝小零食,每個(gè)包裝盒里都有大量空隙浪費(fèi)空間。而序列打包技術(shù)則像俄羅斯套娃一樣,將不同長(zhǎng)度的圖像-文本對(duì)巧妙地組合在一起,最大化利用每個(gè)訓(xùn)練批次的計(jì)算資源。具體來(lái)說(shuō),他們使用了一種叫做"First-fit-decreasing"的裝箱算法,就像玩俄羅斯方塊游戲一樣,將各種形狀的數(shù)據(jù)塊完美拼接在一起,避免了計(jì)算資源的浪費(fèi)。
二、精心設(shè)計(jì)的數(shù)據(jù)過(guò)濾策略
數(shù)據(jù)質(zhì)量是決定模型性能的關(guān)鍵因素,就像烹飪時(shí)食材的新鮮程度直接影響菜肴的味道。研究團(tuán)隊(duì)采用了多層次的數(shù)據(jù)過(guò)濾策略,確保每一份訓(xùn)練數(shù)據(jù)都是精心挑選的"優(yōu)質(zhì)食材"。
他們選擇了四個(gè)主要的圖像-文本標(biāo)題數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。首先是CCS數(shù)據(jù)集,這是一個(gè)包含CC3M、CC12M和SBU數(shù)據(jù)的組合,使用CLIP模型進(jìn)行過(guò)濾,就像用專(zhuān)業(yè)的食材檢測(cè)儀篩選新鮮蔬菜。接著是DataComp-Medium數(shù)據(jù)集,他們使用了排名第一的DFN過(guò)濾器,這就像請(qǐng)最資深的大廚來(lái)挑選食材。然后是LAION數(shù)據(jù)集,同樣使用CLIP進(jìn)行嚴(yán)格過(guò)濾。
最創(chuàng)新的是他們引入了基于多模態(tài)大語(yǔ)言模型的過(guò)濾方法MLM-Filter。這種方法就像讓一位既懂視覺(jué)又懂語(yǔ)言的專(zhuān)家來(lái)評(píng)判圖像和文字的匹配程度。MLM-Filter提供四種不同的質(zhì)量評(píng)估指標(biāo):圖像-文本匹配度、對(duì)象細(xì)節(jié)完整性、標(biāo)題文本質(zhì)量和語(yǔ)義理解程度。研究團(tuán)隊(duì)發(fā)現(xiàn),語(yǔ)義理解指標(biāo)效果最好,就像在品嘗菜肴時(shí),整體的味道平衡比單一調(diào)料的濃度更重要。
通過(guò)精心的數(shù)據(jù)配比實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)最佳的數(shù)據(jù)組合是CCS數(shù)據(jù)加上經(jīng)過(guò)MLM-Filter和DFN雙重過(guò)濾的DataComp數(shù)據(jù)。這種組合就像在傳統(tǒng)菜譜基礎(chǔ)上,加入了一些經(jīng)過(guò)特殊處理的新鮮食材,既保持了基礎(chǔ)的營(yíng)養(yǎng)價(jià)值,又增添了獨(dú)特的風(fēng)味。
三、巧妙的模型架構(gòu)設(shè)計(jì)
Open-Qwen2VL的模型架構(gòu)設(shè)計(jì)體現(xiàn)了"簡(jiǎn)約而不簡(jiǎn)單"的哲學(xué)。整個(gè)架構(gòu)就像一個(gè)精心設(shè)計(jì)的三層蛋糕,每一層都有明確的功能分工。
底層是SigLIP-SO-400M視覺(jué)編碼器,負(fù)責(zé)"看懂"圖像內(nèi)容,就像人的眼睛和視覺(jué)皮層。中間層是自適應(yīng)平均池化視覺(jué)投影器,這是整個(gè)架構(gòu)的創(chuàng)新核心。傳統(tǒng)的投影器就像固定尺寸的窗口,而自適應(yīng)平均池化就像可以根據(jù)需要調(diào)節(jié)大小的智能窗口。在預(yù)訓(xùn)練階段,這個(gè)"窗口"被調(diào)小以提高效率,將729個(gè)視覺(jué)塊壓縮到144個(gè)視覺(jué)令牌。在微調(diào)階段,"窗口"恢復(fù)到原始大小,確保模型能夠處理高分辨率圖像的細(xì)節(jié)。
頂層是Qwen2.5-1.5B-Instruct語(yǔ)言模型骨干,負(fù)責(zé)理解和生成文本,就像人的語(yǔ)言中樞。整個(gè)架構(gòu)的設(shè)計(jì)哲學(xué)是"化繁為簡(jiǎn)",避免了一些復(fù)雜的設(shè)計(jì)如2D多模態(tài)位置編碼和動(dòng)態(tài)分辨率處理,既降低了計(jì)算復(fù)雜度,又保證了在學(xué)術(shù)級(jí)計(jì)算資源上的可訓(xùn)練性。
為了進(jìn)一步提高訓(xùn)練效率,研究團(tuán)隊(duì)在預(yù)訓(xùn)練和微調(diào)階段都凍結(jié)了視覺(jué)編碼器的參數(shù),只訓(xùn)練投影器和語(yǔ)言模型的參數(shù)。這種策略就像在學(xué)習(xí)新技能時(shí),先固定已經(jīng)熟練掌握的基礎(chǔ)技能,專(zhuān)心練習(xí)需要提升的部分。雖然一些研究表明訓(xùn)練視覺(jué)編碼器能進(jìn)一步提升性能,但考慮到計(jì)算資源的限制,這種折中方案在效率和性能之間找到了很好的平衡點(diǎn)。
四、創(chuàng)新的多模態(tài)序列打包算法
多模態(tài)序列打包技術(shù)是Open-Qwen2VL實(shí)現(xiàn)高效訓(xùn)練的核心創(chuàng)新之一。這個(gè)技術(shù)解決的問(wèn)題就像公交車(chē)座位分配問(wèn)題:如果每個(gè)乘客都單獨(dú)坐一排,就會(huì)浪費(fèi)大量座位,但如果能合理安排不同身高的乘客搭配坐在一起,就能最大化利用空間。
傳統(tǒng)的訓(xùn)練方法是將相似長(zhǎng)度的圖像-文本對(duì)打包在一起,然后用填充令牌補(bǔ)齊到最長(zhǎng)序列的長(zhǎng)度。這種方法就像強(qiáng)制要求所有文章都寫(xiě)成相同字?jǐn)?shù),短文章必須用無(wú)意義的詞匯填充,造成了大量的計(jì)算浪費(fèi)。而多模態(tài)序列打包則像編輯一本雜志,將不同長(zhǎng)度的文章巧妙地排版在一起,充分利用每一頁(yè)的空間。
具體的算法實(shí)現(xiàn)就像玩俄羅斯方塊游戲。首先,系統(tǒng)計(jì)算每個(gè)圖像-文本對(duì)的總長(zhǎng)度,包括文本令牌數(shù)和固定的144個(gè)視覺(jué)令牌。然后按長(zhǎng)度降序排列所有樣本,就像先處理最大的方塊。接著使用First-fit-decreasing裝箱算法,為每個(gè)樣本找到第一個(gè)能容納它的"箱子",如果沒(méi)有合適的箱子就創(chuàng)建新箱子。最后將同一箱子中的所有圖像和文本連接起來(lái),如果總長(zhǎng)度小于4096的上下文長(zhǎng)度限制,就用填充令牌補(bǔ)齊。
這種方法的巧妙之處在于它將原本分散的短序列組合成接近最大長(zhǎng)度的完整序列,就像將零散的積木拼成完整的作品。每個(gè)打包后的序列包含多個(gè)圖像和對(duì)應(yīng)的文本,這不僅提高了計(jì)算效率,還意外地增強(qiáng)了模型的多圖像上下文學(xué)習(xí)能力。
五、大規(guī)模監(jiān)督微調(diào)的威力
在完成高效的預(yù)訓(xùn)練后,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的監(jiān)督微調(diào),這個(gè)過(guò)程就像讓一個(gè)有了基礎(chǔ)知識(shí)的學(xué)生進(jìn)行專(zhuān)業(yè)化的深度學(xué)習(xí)。他們將微調(diào)數(shù)據(jù)從傳統(tǒng)的LLaVA-665k擴(kuò)展到了MAmmoTH-VL-10M,數(shù)據(jù)量增長(zhǎng)了15倍,就像從高中課程升級(jí)到了研究生課程。
這種規(guī)?;奈⒄{(diào)帶來(lái)了顯著的性能提升。研究團(tuán)隊(duì)每訓(xùn)練2M個(gè)指令就保存一次檢查點(diǎn),總共得到了5個(gè)不同訓(xùn)練階段的模型版本。通過(guò)對(duì)比這些版本的性能,他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:大多數(shù)基準(zhǔn)測(cè)試的性能在8M指令后趨于收斂,就像學(xué)習(xí)曲線(xiàn)達(dá)到了平臺(tái)期,繼續(xù)學(xué)習(xí)的邊際收益遞減。
然而,不同類(lèi)型的任務(wù)表現(xiàn)出了不同的學(xué)習(xí)模式。文本視覺(jué)問(wèn)答和數(shù)學(xué)推理任務(wù)在整個(gè)訓(xùn)練過(guò)程中都保持穩(wěn)定提升,這可能是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中缺乏足夠的數(shù)學(xué)和OCR相關(guān)內(nèi)容,使得這些任務(wù)成為了"分布外"挑戰(zhàn)。這就像一個(gè)主要學(xué)習(xí)文科的學(xué)生,在理科考試中需要更多時(shí)間才能達(dá)到理想水平。
為了適應(yīng)大規(guī)模數(shù)據(jù)的內(nèi)存需求,研究團(tuán)隊(duì)開(kāi)發(fā)了創(chuàng)新的數(shù)據(jù)加載策略。傳統(tǒng)方法需要將整個(gè)10M的JSON文件加載到內(nèi)存中,在多進(jìn)程分布式訓(xùn)練環(huán)境下會(huì)消耗超過(guò)200GB的CPU內(nèi)存。他們的解決方案是將每個(gè)數(shù)據(jù)樣本保存為單獨(dú)的JSON文件,并生成一個(gè)包含路徑、數(shù)據(jù)類(lèi)型和預(yù)計(jì)算長(zhǎng)度的索引文件。這種方法就像圖書(shū)館的卡片目錄系統(tǒng),不需要把所有書(shū)都搬到桌子上,只需要通過(guò)目錄卡片找到需要的書(shū)籍。
六、突破性的實(shí)驗(yàn)結(jié)果與分析
Open-Qwen2VL在多個(gè)標(biāo)準(zhǔn)化測(cè)試中展現(xiàn)出了令人印象深刻的性能,這些結(jié)果就像一名用極少學(xué)習(xí)時(shí)間卻在各科考試中都取得優(yōu)異成績(jī)的學(xué)生。在與其他2B參數(shù)的頂級(jí)模型對(duì)比中,Open-Qwen2VL在MMBench測(cè)試中獲得了80.9分的最高分,超越了所有競(jìng)爭(zhēng)對(duì)手。在SEEDBench和MMStar等綜合性測(cè)試中也表現(xiàn)出色,顯示出其在通用多模態(tài)理解方面的強(qiáng)大能力。
特別值得注意的是,Open-Qwen2VL在多個(gè)關(guān)鍵指標(biāo)上超越了Qwen2-VL-2B模型,而后者使用的預(yù)訓(xùn)練令牌數(shù)量是前者的277倍。這種差異就像兩個(gè)廚師,一個(gè)用一小籃精選食材做出了美味佳肴,另一個(gè)用整個(gè)菜市場(chǎng)的食材卻只做出了相似水平的菜品。這種對(duì)比突出了高質(zhì)量數(shù)據(jù)篩選和高效訓(xùn)練策略的重要性。
然而,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了模型的局限性。在OCR相關(guān)任務(wù)如AI2D和TextVQA中,Open-Qwen2VL的表現(xiàn)相對(duì)較弱。這個(gè)現(xiàn)象就像一個(gè)在文學(xué)和藝術(shù)方面很有天賦的學(xué)生,在數(shù)學(xué)計(jì)算方面稍顯不足。分析原因發(fā)現(xiàn),這是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中缺乏專(zhuān)門(mén)的OCR數(shù)據(jù)集如SynthDoG或LAIONCOCO-OCR。研究團(tuán)隊(duì)指出,簡(jiǎn)單地加入這些OCR相關(guān)數(shù)據(jù)就能顯著改善這方面的性能。
七、序列打包對(duì)多圖像學(xué)習(xí)能力的意外發(fā)現(xiàn)
研究過(guò)程中,團(tuán)隊(duì)意外發(fā)現(xiàn)了序列打包技術(shù)的一個(gè)額外好處:它顯著增強(qiáng)了模型的多圖像上下文學(xué)習(xí)能力。這個(gè)發(fā)現(xiàn)就像在練習(xí)單項(xiàng)運(yùn)動(dòng)時(shí)意外提升了綜合運(yùn)動(dòng)能力。
為了驗(yàn)證這種能力,研究團(tuán)隊(duì)設(shè)計(jì)了詳細(xì)的少樣本學(xué)習(xí)實(shí)驗(yàn)。他們選擇了預(yù)訓(xùn)練階段表現(xiàn)最好的基礎(chǔ)模型,在GQA、VQA-v2、VizWiz、OKVQA和Text-VQA等數(shù)據(jù)集上進(jìn)行了0-shot和8-shot的對(duì)比測(cè)試。結(jié)果顯示,8-shot上下文學(xué)習(xí)相比0-shot推理獲得了3%到12%的性能提升,這證明了模型確實(shí)學(xué)會(huì)了從多個(gè)示例中學(xué)習(xí)的能力。
這種能力的獲得過(guò)程類(lèi)似于Flamingo模型提出的MultiModal MassiveWeb方法,通過(guò)構(gòu)建偽交錯(cuò)數(shù)據(jù)結(jié)構(gòu)來(lái)激發(fā)多模態(tài)上下文學(xué)習(xí)能力。序列打包技術(shù)無(wú)意中創(chuàng)造了類(lèi)似的數(shù)據(jù)結(jié)構(gòu),每個(gè)打包序列包含多個(gè)圖像-文本對(duì),為模型提供了豐富的上下文信息。這就像在學(xué)習(xí)過(guò)程中,學(xué)生不僅學(xué)會(huì)了單個(gè)知識(shí)點(diǎn),還學(xué)會(huì)了如何在知識(shí)點(diǎn)之間建立聯(lián)系和類(lèi)比。
八、視覺(jué)編碼器參數(shù)策略的權(quán)衡分析
在模型訓(xùn)練策略方面,研究團(tuán)隊(duì)進(jìn)行了關(guān)于是否訓(xùn)練視覺(jué)編碼器參數(shù)的消融實(shí)驗(yàn)。這個(gè)實(shí)驗(yàn)就像比較兩種學(xué)習(xí)方法:一種是保持基礎(chǔ)技能不變,專(zhuān)心學(xué)習(xí)新技能;另一種是在學(xué)習(xí)新技能的同時(shí)繼續(xù)提升基礎(chǔ)技能。
實(shí)驗(yàn)結(jié)果顯示了有趣的權(quán)衡現(xiàn)象。當(dāng)視覺(jué)編碼器參數(shù)可訓(xùn)練時(shí),模型在大多數(shù)任務(wù)上的平均性能有所提升,但在MMMU這樣的高難度推理任務(wù)上反而出現(xiàn)了顯著的性能下降。這種現(xiàn)象可能反映了訓(xùn)練資源有限情況下的優(yōu)化權(quán)衡:當(dāng)模型需要同時(shí)優(yōu)化視覺(jué)理解和語(yǔ)言推理時(shí),可能在復(fù)雜推理任務(wù)上分配的注意力不足。
基于這個(gè)發(fā)現(xiàn)和計(jì)算資源的限制,研究團(tuán)隊(duì)最終選擇在預(yù)訓(xùn)練和微調(diào)階段都凍結(jié)視覺(jué)編碼器參數(shù)。這個(gè)決策體現(xiàn)了在學(xué)術(shù)環(huán)境下進(jìn)行高效研究的實(shí)用主義精神:在資源受限的情況下,選擇能夠獲得最佳整體性能的策略,而不是盲目追求理論上的最優(yōu)配置。
九、訓(xùn)練基礎(chǔ)設(shè)施的創(chuàng)新優(yōu)化
為了支持高效的多模態(tài)模型訓(xùn)練,研究團(tuán)隊(duì)開(kāi)發(fā)了基于Prismatic-VLM的全面訓(xùn)練代碼庫(kù),并進(jìn)行了大量?jī)?yōu)化。他們的訓(xùn)練框架就像一個(gè)經(jīng)過(guò)精心調(diào)校的賽車(chē)引擎,每個(gè)組件都經(jīng)過(guò)優(yōu)化以獲得最佳性能。
最顯著的改進(jìn)是采用了完全分片數(shù)據(jù)并行(FSDP)訓(xùn)練框架,這個(gè)框架相比傳統(tǒng)的DeepSpeed-Zero3實(shí)現(xiàn)了約17%的訓(xùn)練速度提升。這種性能提升就像從普通公路升級(jí)到高速公路,相同的距離用時(shí)更短。FSDP和DeepSpeed-Zero3雖然使用相同的模型分片算法,但FSDP的實(shí)現(xiàn)更加高效,這個(gè)發(fā)現(xiàn)為其他研究團(tuán)隊(duì)提供了有價(jià)值的技術(shù)參考。
在數(shù)據(jù)處理方面,團(tuán)隊(duì)將所有圖像-文本數(shù)據(jù)打包成WebDataset格式,每個(gè)tar文件包含恰好10k個(gè)圖像-文本對(duì)。這種標(biāo)準(zhǔn)化的數(shù)據(jù)格式就像工業(yè)生產(chǎn)中的標(biāo)準(zhǔn)化零件,確保了處理流程的一致性和可預(yù)測(cè)性。配合多模態(tài)序列打包算法,這種數(shù)據(jù)組織方式實(shí)現(xiàn)了接近100%的計(jì)算資源利用率。
代碼庫(kù)還支持大規(guī)模標(biāo)題數(shù)據(jù)準(zhǔn)備、質(zhì)量評(píng)分生成、數(shù)據(jù)過(guò)濾、多模態(tài)序列打包、預(yù)訓(xùn)練、監(jiān)督微調(diào)和多模態(tài)基準(zhǔn)測(cè)試評(píng)估的全流程。這是首個(gè)支持多模態(tài)大語(yǔ)言模型訓(xùn)練全生命周期的綜合性開(kāi)源解決方案,就像提供了從原材料到成品的完整生產(chǎn)線(xiàn)。
十、開(kāi)源理念的重新定義與社區(qū)貢獻(xiàn)
Open-Qwen2VL項(xiàng)目最重要的貢獻(xiàn)可能不是技術(shù)本身,而是對(duì)"開(kāi)源"概念的重新定義。在當(dāng)前的AI研究環(huán)境中,許多聲稱(chēng)"開(kāi)源"的項(xiàng)目實(shí)際上只開(kāi)放了模型權(quán)重,而訓(xùn)練過(guò)程中的關(guān)鍵技術(shù)細(xì)節(jié)仍然保密。這就像只給你看到了菜品的最終成果,卻不告訴你具體的制作方法。
研究團(tuán)隊(duì)提出了多模態(tài)大語(yǔ)言模型"完全開(kāi)源"的新標(biāo)準(zhǔn):不僅要開(kāi)放訓(xùn)練代碼庫(kù),還要詳細(xì)公開(kāi)數(shù)據(jù)過(guò)濾技術(shù),以及所有預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)。這種標(biāo)準(zhǔn)就像開(kāi)源菜譜不僅要提供食材清單和制作步驟,還要詳細(xì)說(shuō)明食材的選擇標(biāo)準(zhǔn)、處理技巧和質(zhì)量控制方法。
這種徹底的開(kāi)源策略對(duì)學(xué)術(shù)社區(qū)具有深遠(yuǎn)影響。首先,它降低了進(jìn)入門(mén)檻,讓資源有限的研究機(jī)構(gòu)也能參與到前沿的多模態(tài)AI研究中來(lái)。其次,它促進(jìn)了技術(shù)的透明化和可重復(fù)性,這是科學(xué)研究的基本要求卻在AI領(lǐng)域經(jīng)常被忽視。最后,它鼓勵(lì)了協(xié)作創(chuàng)新,讓不同研究團(tuán)隊(duì)能夠在共同的基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展。
項(xiàng)目提供的資源包括完整的訓(xùn)練代碼、29M高質(zhì)量圖像-文本對(duì)的預(yù)訓(xùn)練數(shù)據(jù)(WebDataset格式)、詳細(xì)的數(shù)據(jù)過(guò)濾方法和腳本、基于FSDP的高效訓(xùn)練框架,以及預(yù)訓(xùn)練和指令調(diào)優(yōu)的模型檢查點(diǎn)。所有這些資源都通過(guò)GitHub和Hugging Face平臺(tái)公開(kāi)提供,確保了全球研究者的易獲取性。
研究團(tuán)隊(duì)明確表達(dá)了他們的愿景:證明預(yù)訓(xùn)練研究不應(yīng)該是大型科技公司的專(zhuān)利,鼓勵(lì)學(xué)術(shù)社區(qū)即使在計(jì)算資源非常有限的情況下,也能參與到預(yù)訓(xùn)練數(shù)據(jù)和流程的研究中來(lái)。這種理念體現(xiàn)了科學(xué)研究的民主化精神,讓更多研究者能夠參與到AI技術(shù)的發(fā)展中來(lái)。
說(shuō)到底,Open-Qwen2VL項(xiàng)目展示了一個(gè)令人振奮的可能性:通過(guò)巧妙的設(shè)計(jì)和精心的優(yōu)化,學(xué)術(shù)機(jī)構(gòu)也能在多模態(tài)AI研究的最前沿占有一席之地。這個(gè)僅用220小時(shí)GPU時(shí)間訓(xùn)練出來(lái)的模型,不僅在性能上可以與使用數(shù)千倍計(jì)算資源的商業(yè)模型媲美,更重要的是它證明了開(kāi)放科學(xué)的力量。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。它重新定義了AI研究的開(kāi)放標(biāo)準(zhǔn),為資源有限的研究機(jī)構(gòu)提供了參與前沿研究的可能性,同時(shí)推動(dòng)了整個(gè)領(lǐng)域向更加透明和協(xié)作的方向發(fā)展。當(dāng)我們看到一個(gè)小規(guī)模學(xué)術(shù)團(tuán)隊(duì)能夠在如此有限的計(jì)算資源下取得突破性成果時(shí),不禁讓人思考:也許AI研究的未來(lái)不在于誰(shuí)擁有最多的計(jì)算資源,而在于誰(shuí)能夠更聰明地利用這些資源,更開(kāi)放地分享知識(shí),更協(xié)作地推動(dòng)技術(shù)進(jìn)步。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究預(yù)示著AI技術(shù)的發(fā)展將變得更加多元化和民主化。當(dāng)更多研究機(jī)構(gòu)能夠參與到AI模型的開(kāi)發(fā)中來(lái)時(shí),我們可能會(huì)看到更多針對(duì)特定需求、更加貼近實(shí)際應(yīng)用的AI解決方案。這種趨勢(shì)最終將讓AI技術(shù)更好地服務(wù)于社會(huì)的各個(gè)角落,而不僅僅是少數(shù)擁有巨額資源的大型機(jī)構(gòu)。
Q&A Q1:Open-Qwen2VL為什么能用這么少的計(jì)算資源就達(dá)到這么好的效果? A:主要原因有三個(gè):首先是使用了高質(zhì)量的數(shù)據(jù)過(guò)濾技術(shù),只用精選的5B令牌而不是海量的低質(zhì)量數(shù)據(jù);其次是采用了多模態(tài)序列打包技術(shù),大大提高了計(jì)算資源利用率;最后是使用了動(dòng)態(tài)圖像分辨率策略,預(yù)訓(xùn)練時(shí)用低分辨率提高效率,微調(diào)時(shí)恢復(fù)高分辨率保證性能。
Q2:什么是"完全開(kāi)源"的多模態(tài)大語(yǔ)言模型?和普通開(kāi)源有什么區(qū)別? A:普通的開(kāi)源模型通常只公開(kāi)模型權(quán)重和基本代碼,而"完全開(kāi)源"要求公開(kāi)三個(gè)方面:訓(xùn)練代碼庫(kù)、詳細(xì)的數(shù)據(jù)過(guò)濾技術(shù)、以及所有預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)。這就像不僅給你看菜品成果,還要提供完整的制作方法、食材選擇標(biāo)準(zhǔn)和處理技巧。
Q3:普通研究機(jī)構(gòu)可以使用Open-Qwen2VL做什么?有什么實(shí)際價(jià)值? A:普通研究機(jī)構(gòu)可以基于Open-Qwen2VL進(jìn)行多種研究和應(yīng)用開(kāi)發(fā),包括特定領(lǐng)域的多模態(tài)AI應(yīng)用、新的訓(xùn)練策略研究、數(shù)據(jù)過(guò)濾方法改進(jìn)等。更重要的是,它提供了完整的訓(xùn)練流程和代碼,讓資源有限的機(jī)構(gòu)也能參與到前沿AI研究中來(lái),推動(dòng)了AI研究的民主化。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。