這項(xiàng)由NVIDIA公司和韓國(guó)科學(xué)技術(shù)院(KAIST)的研究團(tuán)隊(duì)聯(lián)合完成的突破性研究發(fā)表于2025年6月。論文的主要作者包括來(lái)自KAIST的李炳寬(Byung-Kwan Lee)和羅勇萬(wàn)(Yong Man Ro),以及來(lái)自NVIDIA的八川亮(Ryo Hachiuma)、王玉強(qiáng)(Yu-Chiang Frank Wang)和吳悅?cè)A(Yueh-Hua Wu)。這項(xiàng)研究提出了一個(gè)名為"GenRecal"(重校準(zhǔn)后生成)的全新框架,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以在arXiv平臺(tái)上找到完整論文(論文編號(hào):arXiv:2506.15681v1)。
當(dāng)前的人工智能世界正面臨著一個(gè)有趣的矛盾:為了讓AI變得更聰明,科學(xué)家們不斷地給AI模型"增肥",從最初的70億參數(shù)擴(kuò)展到現(xiàn)在的700多億參數(shù)。這就像是為了讓一個(gè)人變得更博學(xué),我們不斷地往他的腦子里塞書籍,最終這個(gè)人雖然知識(shí)淵博,但變得行動(dòng)遲緩,需要巨大的"食物"(計(jì)算資源)才能維持運(yùn)轉(zhuǎn)?,F(xiàn)在的問(wèn)題是,這些超級(jí)聰明的大模型雖然能力出眾,甚至可以與GPT-4V和Claude-3.5這樣的頂級(jí)商業(yè)模型相提并論,但它們太"重"了,普通的手機(jī)或電腦根本帶不動(dòng)。
這種情況就像是擁有一臺(tái)功能強(qiáng)大但體積龐大的臺(tái)式電腦,雖然性能卓越,但你不可能把它裝進(jìn)背包隨身攜帶。因此,研究人員迫切需要找到一種方法,將這些"大胖子"AI的智慧轉(zhuǎn)移到"小個(gè)子"AI身上,讓小模型也能擁有大模型的聰明才智,同時(shí)保持輕便靈活的特性。
傳統(tǒng)的知識(shí)轉(zhuǎn)移方法就像是兩個(gè)人之間的語(yǔ)言交流,但前提是他們必須說(shuō)同一種"語(yǔ)言"。在AI的世界里,這種"語(yǔ)言"指的是模型處理信息的方式,包括詞匯表的大小、如何切分詞語(yǔ),以及給每個(gè)詞分配的編號(hào)系統(tǒng)。然而,現(xiàn)實(shí)中的AI模型就像來(lái)自不同國(guó)家的人,每個(gè)都有自己獨(dú)特的"方言"。比如,InternVL2.5系列會(huì)把一張圖片切分成最多12個(gè)小塊來(lái)分析,而Qwen2-VL系列則采用完全不同的策略,用一種叫做"多模態(tài)RoPE"的技術(shù)來(lái)一次性處理整張圖片。
這種差異造成的問(wèn)題就像是試圖讓一個(gè)只會(huì)中文的老師教一個(gè)只懂英文的學(xué)生——即使老師知識(shí)淵博,學(xué)生也無(wú)法理解和吸收這些知識(shí)?,F(xiàn)有的知識(shí)轉(zhuǎn)移技術(shù)只能在"說(shuō)同一種語(yǔ)言"的AI模型之間工作,這大大限制了我們從最強(qiáng)大的AI模型中學(xué)習(xí)的機(jī)會(huì)。
正是在這樣的背景下,研究團(tuán)隊(duì)開發(fā)了GenRecal框架。這個(gè)系統(tǒng)的核心是一個(gè)叫做"重校準(zhǔn)器"(Recalibrator)的創(chuàng)新組件,它就像是一個(gè)超級(jí)翻譯官,能夠?qū)⒉煌珹I模型之間的"語(yǔ)言"進(jìn)行實(shí)時(shí)翻譯和轉(zhuǎn)換。這個(gè)翻譯官不僅能理解各種AI"方言",還能將大模型的深層知識(shí)以小模型能夠理解的方式進(jìn)行傳達(dá)。
更令人驚喜的是,即使是在相同"語(yǔ)言"的AI模型之間,GenRecal的表現(xiàn)也遠(yuǎn)超傳統(tǒng)方法。研究團(tuán)隊(duì)在一個(gè)名為MM-Vet的權(quán)威測(cè)試中進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果顯示傳統(tǒng)的知識(shí)轉(zhuǎn)移方法只能讓小模型的得分從62分提升到65.9分,而GenRecal能夠?qū)⑼瑯拥男∧P吞嵘?7.8分。當(dāng)他們使用更強(qiáng)大的"老師"模型時(shí),小模型的得分甚至能達(dá)到70.4分,這種提升幅度在AI領(lǐng)域是相當(dāng)顯著的。
GenRecal的工作原理可以用一個(gè)生動(dòng)的比喻來(lái)解釋。設(shè)想你要將一位資深教授的知識(shí)傳授給一名年輕學(xué)生,但他們說(shuō)著不同的語(yǔ)言。傳統(tǒng)方法就像是強(qiáng)行要求學(xué)生直接理解教授的原始講義,結(jié)果往往是學(xué)生一頭霧水。而GenRecal的方法更像是雇傭了一位經(jīng)驗(yàn)豐富的翻譯官,這位翻譯官不僅能夠準(zhǔn)確翻譯語(yǔ)言,還能根據(jù)學(xué)生的理解能力調(diào)整表達(dá)方式,確保復(fù)雜的概念能夠以學(xué)生容易接受的形式傳達(dá)。
GenRecal的訓(xùn)練過(guò)程分為三個(gè)循序漸進(jìn)的階段,就像是培養(yǎng)一個(gè)學(xué)生從零基礎(chǔ)到精通的完整過(guò)程。第一階段專注于"對(duì)齊",讓重校準(zhǔn)器學(xué)會(huì)理解和匹配大小模型之間的特征表示,這就像是讓翻譯官先熟悉兩種語(yǔ)言的基本詞匯和語(yǔ)法結(jié)構(gòu)。第二階段進(jìn)行"蒸餾",開始真正的知識(shí)傳輸過(guò)程,讓小模型在重校準(zhǔn)器的幫助下逐步吸收大模型的智慧。第三階段是"微調(diào)",對(duì)整個(gè)系統(tǒng)進(jìn)行最后的優(yōu)化,確保小模型能夠在各種實(shí)際應(yīng)用場(chǎng)景中穩(wěn)定發(fā)揮。
研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上非常嚴(yán)謹(jǐn),他們收集了900萬(wàn)個(gè)視覺(jué)指令調(diào)優(yōu)樣本,涵蓋了從一般視覺(jué)問(wèn)答、圖像描述到圖表理解、常識(shí)知識(shí)、科學(xué)數(shù)學(xué)推理等多個(gè)領(lǐng)域。這相當(dāng)于為AI模型準(zhǔn)備了一個(gè)包含各種題型的超級(jí)題庫(kù),確保訓(xùn)練的全面性和有效性。
在技術(shù)實(shí)現(xiàn)上,重校準(zhǔn)器的設(shè)計(jì)頗為精巧。它由兩個(gè)解碼器塊和兩個(gè)投影器組成,就像是一個(gè)復(fù)雜的信息處理管道。當(dāng)來(lái)自小模型和大模型的信息流入重校準(zhǔn)器時(shí),系統(tǒng)首先通過(guò)預(yù)投影器調(diào)整維度匹配,然后通過(guò)解碼器塊進(jìn)行深度特征轉(zhuǎn)換,最后通過(guò)后投影器輸出適合大模型語(yǔ)言頭的格式。整個(gè)過(guò)程還加入了位置重新編碼和層歸一化等技術(shù)細(xì)節(jié),確保信息傳輸?shù)臏?zhǔn)確性和穩(wěn)定性。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)關(guān)鍵的技術(shù)要點(diǎn):正則化項(xiàng)的重要性。他們通過(guò)細(xì)致的實(shí)驗(yàn)證明,如果沒(méi)有適當(dāng)?shù)恼齽t化約束,重校準(zhǔn)器可能會(huì)偏離大模型的特征空間,導(dǎo)致知識(shí)傳輸效果大打折扣。這就像是在翻譯過(guò)程中需要保持原意的完整性,不能因?yàn)樽非蟊磉_(dá)的流暢而丟失核心信息。通過(guò)引入正則化機(jī)制,系統(tǒng)能夠在保持翻譯準(zhǔn)確性的同時(shí),確保知識(shí)傳輸?shù)母弑U娑取?/p>
實(shí)驗(yàn)結(jié)果令人印象深刻。在多個(gè)權(quán)威評(píng)測(cè)基準(zhǔn)上,GenRecal都表現(xiàn)出了顯著的優(yōu)勢(shì)。以AI2D測(cè)試為例,傳統(tǒng)方法通常只能將小模型的準(zhǔn)確率從77.5%提升到78.3%左右,而GenRecal能夠?qū)⑼瑯拥哪P吞嵘?3.9%,這種跨越式的提升在AI領(lǐng)域是極其罕見的。類似的顯著提升在ChartQA、MathVista、MMMU等各種測(cè)試中都得到了驗(yàn)證。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"強(qiáng)者恒強(qiáng)"的規(guī)律:選擇更強(qiáng)大的大模型作為"老師",能夠帶來(lái)更顯著的性能提升。這就像是跟隨更優(yōu)秀的導(dǎo)師學(xué)習(xí),學(xué)生能夠獲得更高質(zhì)量的知識(shí)傳承。同時(shí),使用更有能力的小模型作為"學(xué)生",也能夠更好地吸收和利用傳輸?shù)闹R(shí),實(shí)現(xiàn)更高的最終性能。
研究團(tuán)隊(duì)還通過(guò)可視化分析驗(yàn)證了GenRecal的有效性。他們使用t-SNE技術(shù)將高維特征空間投影到二維平面進(jìn)行觀察,發(fā)現(xiàn)在訓(xùn)練初期,大小模型的特征表示分布相差很大,就像是兩片不相交的云團(tuán)。但隨著訓(xùn)練的進(jìn)行,重校準(zhǔn)器逐漸將小模型的特征"拉向"大模型的特征空間,最終實(shí)現(xiàn)了良好的對(duì)齊效果。這種可視化證據(jù)有力地支持了GenRecal的工作原理。
在對(duì)比傳統(tǒng)蒸餾方法時(shí),GenRecal展現(xiàn)出了全面的優(yōu)勢(shì)。研究團(tuán)隊(duì)將GenRecal與MiniLLM、DistiLLM、LLaVA-KD等現(xiàn)有方法進(jìn)行了公平對(duì)比,結(jié)果顯示即使在相同條件下,GenRecal的性能提升也是最為顯著的。這種優(yōu)勢(shì)來(lái)源于GenRecal能夠更好地處理大小模型之間的特征差異,以及更有效的知識(shí)傳輸機(jī)制。
GenRecal的另一個(gè)重要貢獻(xiàn)是打破了傳統(tǒng)蒸餾方法的局限性。以往的方法只能在具有相同"語(yǔ)言系統(tǒng)"的模型之間進(jìn)行知識(shí)傳輸,這大大限制了可選擇的模型組合。而GenRecal的出現(xiàn)使得任意大小模型之間的知識(shí)傳輸成為可能,極大地?cái)U(kuò)展了實(shí)際應(yīng)用的靈活性。
從實(shí)用角度來(lái)看,GenRecal解決了一個(gè)非?,F(xiàn)實(shí)的問(wèn)題:如何在有限的計(jì)算資源下獲得最佳的AI性能。對(duì)于需要在移動(dòng)設(shè)備、邊緣計(jì)算設(shè)備上部署AI應(yīng)用的場(chǎng)景,GenRecal提供了一個(gè)理想的解決方案。用戶可以選擇最適合自己硬件條件的小模型,然后通過(guò)GenRecal從最強(qiáng)大的大模型中獲取知識(shí),實(shí)現(xiàn)性能和效率的最佳平衡。
研究團(tuán)隊(duì)在數(shù)據(jù)集構(gòu)建方面也下了很大功夫。他們將收集的900萬(wàn)訓(xùn)練樣本按照功能進(jìn)行了精細(xì)分類,包括"知識(shí)類"、"科學(xué)數(shù)學(xué)類"和"圖表文檔類"三大類別。通過(guò)移除不同類別數(shù)據(jù)的對(duì)比實(shí)驗(yàn),他們發(fā)現(xiàn)MMMU測(cè)試更依賴于"知識(shí)類"數(shù)據(jù),而MathVista測(cè)試更需要"科學(xué)數(shù)學(xué)類"數(shù)據(jù)的支撐。這種發(fā)現(xiàn)為未來(lái)針對(duì)特定應(yīng)用場(chǎng)景的定制化訓(xùn)練提供了重要指導(dǎo)。
在計(jì)算資源需求方面,GenRecal的訓(xùn)練確實(shí)需要同時(shí)加載大小兩個(gè)模型,對(duì)內(nèi)存提出了較高要求。研究團(tuán)隊(duì)使用了256塊NVIDIA A100 80GB GPU進(jìn)行訓(xùn)練,并采用了梯度檢查點(diǎn)、LoRA等技術(shù)來(lái)優(yōu)化內(nèi)存使用。整個(gè)訓(xùn)練過(guò)程分三個(gè)階段,前兩個(gè)階段各需要5-7天,最后階段需要4-6天,總體訓(xùn)練時(shí)間在合理范圍內(nèi)。
值得注意的是,在實(shí)際部署時(shí),用戶只需要保留訓(xùn)練好的小模型,大模型和重校準(zhǔn)器都可以丟棄,這意味著最終的推理成本與普通小模型完全相同。這種設(shè)計(jì)使得GenRecal在實(shí)際應(yīng)用中具有很強(qiáng)的實(shí)用性,用戶可以享受大模型級(jí)別的性能,同時(shí)承擔(dān)小模型級(jí)別的計(jì)算成本。
研究團(tuán)隊(duì)還展示了GenRecal在不同規(guī)模模型組合上的廣泛適用性。他們測(cè)試了從1B到78B參數(shù)范圍內(nèi)的各種模型組合,結(jié)果顯示GenRecal在所有組合上都能帶來(lái)顯著的性能提升。這種規(guī)模無(wú)關(guān)的有效性證明了GenRecal方法的普遍適用性和穩(wěn)健性。
從技術(shù)發(fā)展趨勢(shì)來(lái)看,GenRecal代表了AI模型壓縮和知識(shí)傳輸領(lǐng)域的一個(gè)重要突破。隨著AI模型規(guī)模的不斷增長(zhǎng)和應(yīng)用場(chǎng)景的日益多樣化,類似GenRecal這樣能夠跨架構(gòu)進(jìn)行知識(shí)傳輸?shù)募夹g(shù)將變得越來(lái)越重要。它不僅解決了當(dāng)前的技術(shù)痛點(diǎn),也為未來(lái)更復(fù)雜的多模型協(xié)作場(chǎng)景奠定了基礎(chǔ)。
研究團(tuán)隊(duì)在論文中還討論了GenRecal的局限性和未來(lái)改進(jìn)方向。當(dāng)前版本主要關(guān)注最后層的知識(shí)傳輸,未來(lái)可以擴(kuò)展到中間層的細(xì)粒度知識(shí)傳輸。此外,還可以探索多個(gè)大模型同時(shí)向一個(gè)小模型傳輸知識(shí)的可能性,這將進(jìn)一步提升知識(shí)傳輸?shù)男Ч挽`活性。
說(shuō)到底,GenRecal就像是給AI世界提供了一個(gè)通用的"知識(shí)傳輸器",讓不同類型的AI模型能夠相互學(xué)習(xí)和傳承智慧。這不僅是一個(gè)技術(shù)突破,更是讓高性能AI民主化的重要一步。普通開發(fā)者和研究者現(xiàn)在可以輕松地從最先進(jìn)的大模型中汲取知識(shí),而不必受限于硬件條件或模型架構(gòu)的約束。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身。它為整個(gè)AI生態(tài)系統(tǒng)的發(fā)展提供了新的可能性,讓我們能夠更加靈活高效地利用已有的AI資源。就像是打通了AI世界的"任督二脈",讓知識(shí)和能力能夠自由流動(dòng),最終惠及更廣泛的用戶群體。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文已經(jīng)在arXiv平臺(tái)公開發(fā)布,編號(hào)為2506.15681v1。
Q&A
Q1:GenRecal到底是什么?它解決了什么問(wèn)題? A:GenRecal是一個(gè)AI模型"減肥"技術(shù),能讓小的AI模型學(xué)會(huì)大模型的能力。它解決的核心問(wèn)題是不同類型AI模型之間無(wú)法互相學(xué)習(xí)的限制,就像給AI世界裝了個(gè)"通用翻譯器",讓原本"語(yǔ)言不通"的AI模型能夠傳授和學(xué)習(xí)知識(shí)。
Q2:使用GenRecal訓(xùn)練的小模型性能真的能接近大模型嗎? A:實(shí)驗(yàn)顯示確實(shí)如此。比如在AI2D測(cè)試中,小模型原本只有77.5%準(zhǔn)確率,用GenRecal后能達(dá)到93.9%。雖然還是比不上真正的大模型,但已經(jīng)是巨大提升了,而且運(yùn)行成本只相當(dāng)于小模型。
Q3:普通人能用到GenRecal技術(shù)嗎?需要什么條件? A:目前GenRecal還是研究階段的技術(shù),需要專業(yè)的GPU集群來(lái)訓(xùn)練。但一旦訓(xùn)練完成,最終的小模型就能在普通設(shè)備上運(yùn)行。未來(lái)可能會(huì)有公司基于這項(xiàng)技術(shù)推出商業(yè)化產(chǎn)品,讓普通用戶也能享受到這種"小模型大能力"的好處。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。