在人工智能研究的廣闊天空中,基礎(chǔ)模型就像是支撐整個(gè)生態(tài)系統(tǒng)的"地基",而評(píng)估這些地基哪個(gè)更牢固,一直是學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的焦點(diǎn)。來(lái)自LAION、于利希超級(jí)計(jì)算中心(JSC)、意大利國(guó)家信息科學(xué)與技術(shù)研究院(CNR)和埃因霍溫理工大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究,探索了如何通過(guò)規(guī)模法則(Scaling Law)更科學(xué)地比較開(kāi)源視覺(jué)語(yǔ)言模型。這項(xiàng)研究發(fā)表于2025年6月5日的arXiv預(yù)印本平臺(tái)(arXiv:2506.04598v1)。
想象一下,你想比較兩種不同的健身方法哪個(gè)更有效。如果只是看一個(gè)人鍛煉一周的效果,結(jié)論可能很片面;但如果你能追蹤多位使用者在不同時(shí)長(zhǎng)(一周、一個(gè)月、半年)的進(jìn)步曲線,就能更準(zhǔn)確地判斷哪種方法真正更有效。研究團(tuán)隊(duì)正是使用了類似的"規(guī)模法則"思路,通過(guò)測(cè)量模型在不同計(jì)算資源和數(shù)據(jù)量下的表現(xiàn)曲線,而不是僅僅看某一個(gè)特定配置下的性能表現(xiàn)。
這項(xiàng)研究首次對(duì)兩種重要的語(yǔ)言-視覺(jué)學(xué)習(xí)方法——CLIP(僅使用對(duì)比學(xué)習(xí))和MaMMUT(同時(shí)使用對(duì)比學(xué)習(xí)和生成式標(biāo)題學(xué)習(xí))——進(jìn)行了全面的規(guī)模法則分析。研究團(tuán)隊(duì)在廣泛的模型規(guī)模和訓(xùn)練樣本數(shù)量上進(jìn)行了密集測(cè)量,確保預(yù)測(cè)的準(zhǔn)確性。結(jié)果顯示,雖然在較小的計(jì)算規(guī)模下CLIP表現(xiàn)更優(yōu),但隨著規(guī)模增加,MaMMUT展現(xiàn)出更強(qiáng)的可擴(kuò)展性和數(shù)據(jù)效率,在大規(guī)模計(jì)算資源條件下性能超過(guò)CLIP。這一趨勢(shì)在不同的下游任務(wù)(分類、檢索、分割)和不同的開(kāi)放數(shù)據(jù)集(DataComp、DFN和Re-LAION)中都得到了一致驗(yàn)證。
研究團(tuán)隊(duì)還發(fā)現(xiàn),即使使用計(jì)算成本降低98%的恒定學(xué)習(xí)率方案進(jìn)行規(guī)模法則推導(dǎo),仍然能得出相同的結(jié)論,證明了這種比較方法的穩(wěn)健性。基于研究發(fā)現(xiàn),團(tuán)隊(duì)還訓(xùn)練了一個(gè)開(kāi)放的大型模型openMaMMUT-L/14,它在ImageNet-1k零樣本分類上達(dá)到了80.3%的準(zhǔn)確率。
這項(xiàng)研究為如何科學(xué)地比較開(kāi)源基礎(chǔ)模型和數(shù)據(jù)集提供了新方法,避免了僅基于單一參考點(diǎn)的片面比較,為系統(tǒng)性地改進(jìn)開(kāi)源基礎(chǔ)模型和數(shù)據(jù)集鋪平了道路。
一、為什么我們需要更好的模型比較方法?
想象一下,你去買(mǎi)跑鞋時(shí)面臨兩個(gè)品牌的選擇。銷售員告訴你:"A品牌在專業(yè)馬拉松選手中更受歡迎,而B(niǎo)品牌在普通跑步愛(ài)好者中口碑更好。"這樣的信息對(duì)你的選擇其實(shí)幫助不大,因?yàn)槟悴恢肋@些評(píng)價(jià)背后的具體測(cè)試條件、使用者特點(diǎn)以及評(píng)價(jià)標(biāo)準(zhǔn)是什么。
人工智能領(lǐng)域的基礎(chǔ)模型比較也面臨類似的問(wèn)題。通常,研究人員會(huì)在一系列標(biāo)準(zhǔn)化的參考任務(wù)上比較不同的基礎(chǔ)模型。然而,這種比較往往只在一個(gè)或少數(shù)幾個(gè)選定的模型規(guī)模和數(shù)據(jù)規(guī)模上進(jìn)行,而且沒(méi)有仔細(xì)對(duì)齊投入訓(xùn)練的計(jì)算資源。更糟糕的是,重要的訓(xùn)練數(shù)據(jù)集通常是封閉的,無(wú)法公開(kāi)獲取。這使得難以確定所觀察到的模型差異是由算法改進(jìn)、數(shù)據(jù)集質(zhì)量還是訓(xùn)練計(jì)算資源的差異造成的,或者是它們的組合效應(yīng)。同時(shí),也無(wú)法確定這種比較是否適用于其他規(guī)模。
研究團(tuán)隊(duì)通過(guò)使用規(guī)模法則推導(dǎo)來(lái)解決這些問(wèn)題?;A(chǔ)模型展現(xiàn)出的規(guī)模法則允許我們從較小規(guī)模的測(cè)量中確定模型性能與總訓(xùn)練計(jì)算量之間的依賴關(guān)系,從而能夠在廣泛的規(guī)模范圍內(nèi)進(jìn)行預(yù)測(cè),而不僅僅是一個(gè)或幾個(gè)選定的點(diǎn)。
研究小組選擇了語(yǔ)言-視覺(jué)學(xué)習(xí)作為模型和數(shù)據(jù)集比較的重要場(chǎng)景。對(duì)比性語(yǔ)言-圖像預(yù)訓(xùn)練(CLIP)是一種成熟的學(xué)習(xí)程序,其產(chǎn)生的模型展示了令人印象深刻的穩(wěn)健性和遷移能力,已經(jīng)被廣泛應(yīng)用于許多設(shè)置中,如視覺(jué)-語(yǔ)言指令微調(diào)模型(如LLaVa、InternVL、SigLIP)和文本到圖像生成模型。自CLIP首次發(fā)布以來(lái),提出了許多擴(kuò)展,如CoCa、MaMMUT和SigLIP。這些工作聲稱提供了比標(biāo)準(zhǔn)CLIP更高性能的語(yǔ)言-視覺(jué)模型。然而,目前還不清楚這些訓(xùn)練程序中哪一個(gè)因?yàn)楹畏N原因更好,以及對(duì)標(biāo)準(zhǔn)CLIP程序的改進(jìn)聲明是否在各個(gè)規(guī)模上都成立。
二、科學(xué)的模型比較:密集測(cè)量與規(guī)模法則
研究團(tuán)隊(duì)的方法就像是進(jìn)行一場(chǎng)全面而系統(tǒng)的科學(xué)實(shí)驗(yàn),而不是簡(jiǎn)單地比較兩款產(chǎn)品的某一項(xiàng)指標(biāo)。他們不僅關(guān)注最終結(jié)果,更關(guān)注不同配置下性能變化的整體趨勢(shì)。
在這項(xiàng)研究中,團(tuán)隊(duì)使用了三個(gè)開(kāi)放參考數(shù)據(jù)集:DataComp-1.4B、DFN-1.4B和Re-LAION-1.4B,對(duì)CLIP和MaMMUT這兩種重要的程序進(jìn)行了大規(guī)模研究。他們?cè)谀P图軜?gòu)大小(從S/32到H/14)和所見(jiàn)樣本數(shù)量(從1.28M到3B)的廣泛跨度上進(jìn)行了密集測(cè)量,評(píng)估下游性能的任務(wù)涵蓋零樣本分類、檢索和分割。
研究使用的CLIP模型基于對(duì)比InfoNCE損失訓(xùn)練,而MaMMUT模型則結(jié)合了對(duì)比損失和標(biāo)題生成損失。為確保公平比較,研究團(tuán)隊(duì)使用了完全相同的訓(xùn)練環(huán)境和評(píng)估流程。
具體來(lái)說(shuō),研究中考慮了15種不同的模型配置(ViT-S、ViT-M、ViT-B、ViT-L和ViT-H視覺(jué)編碼器,每種都有32x32、16x16和14x14的不同patch尺寸),以及11個(gè)不同的樣本數(shù)量配置(從1.28M到3.07B)。研究還比較了余弦和恒定學(xué)習(xí)率調(diào)度器的效果。
在下游評(píng)估方面,研究使用了零樣本分類(在DataComp評(píng)估套件中的35個(gè)分類任務(wù)上評(píng)估top-1準(zhǔn)確率)、零樣本檢索(在MS-COCO上評(píng)估圖像和文本檢索Recall@5指標(biāo))以及分割(在ADE20K上進(jìn)行語(yǔ)義分割)。
這種全面而系統(tǒng)的評(píng)估方法,就像是對(duì)運(yùn)動(dòng)員進(jìn)行全面的體能測(cè)試,而不僅僅是看100米短跑成績(jī),從而確保了比較結(jié)果的可靠性和全面性。
三、規(guī)模法則推導(dǎo):理解模型如何隨規(guī)模增長(zhǎng)而變化
為了理解模型性能如何隨著計(jì)算資源和數(shù)據(jù)量的增加而變化,研究團(tuán)隊(duì)使用了規(guī)模法則推導(dǎo)。這就像是研究植物生長(zhǎng)規(guī)律——通過(guò)測(cè)量不同階段的高度,你可以預(yù)測(cè)它未來(lái)的生長(zhǎng)曲線。
在規(guī)模法則的推導(dǎo)過(guò)程中,研究團(tuán)隊(duì)既改變了模型架構(gòu)大小(文本和視覺(jué)塔的參數(shù)數(shù)量),也改變了所見(jiàn)樣本數(shù)量和patch大小。一般來(lái)說(shuō),計(jì)算量與性能之間遵循冪律關(guān)系:L = aC^b,其中C是計(jì)算量(以FLOPs計(jì)),L是誤差率。
由于零樣本圖像分類等任務(wù)的特殊性,研究團(tuán)隊(duì)考慮了小計(jì)算規(guī)模下的飽和效應(yīng)和任務(wù)固有的性能上限,采用了以下函數(shù)形式來(lái)擬合誤差率:
L(C) = Ac · (C + Bc)^(-αc) + Ec
其中αc > 0,Ec代表不可約誤差。
對(duì)于每種計(jì)算規(guī)模C和模型架構(gòu)的組合,研究團(tuán)隊(duì)取誤差率最小的點(diǎn)。為了評(píng)估擬合質(zhì)量,他們使用了計(jì)算預(yù)算低于閾值的點(diǎn)進(jìn)行擬合,然后計(jì)算剩余(保留)點(diǎn)上的均方誤差。
這種方法就像是天氣預(yù)報(bào)——通過(guò)已知的數(shù)據(jù)點(diǎn)建立模型,然后檢驗(yàn)?zāi)P蛯?duì)未來(lái)天氣的預(yù)測(cè)準(zhǔn)確性,從而驗(yàn)證模型的可靠性。
四、研究發(fā)現(xiàn):MaMMUT的規(guī)模優(yōu)勢(shì)
研究的核心發(fā)現(xiàn)就像是一場(chǎng)馬拉松比賽——在起跑階段CLIP領(lǐng)先,但隨著距離增加,MaMMUT逐漸顯示出更強(qiáng)的耐力和速度優(yōu)勢(shì)。
具體來(lái)說(shuō),研究發(fā)現(xiàn)MaMMUT在可擴(kuò)展性方面一致優(yōu)于CLIP。這反映在等效計(jì)算預(yù)算下較大規(guī)模時(shí)的較低誤差率上,交叉點(diǎn)始終位于10^10和10^11 GFLOPS之間。這表明隨著計(jì)算量增加,MaMMUT表現(xiàn)出更好的效率和泛化能力。
重要的是,這一趨勢(shì)在不同條件下都得到了一致驗(yàn)證:
首先,在不同的預(yù)訓(xùn)練數(shù)據(jù)集上,包括DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B,均觀察到相同的趨勢(shì)。這就像是三場(chǎng)不同賽道上的馬拉松,MaMMUT都展現(xiàn)出了同樣的長(zhǎng)距離優(yōu)勢(shì)。
其次,在不同的下游任務(wù)上,包括ImageNet-1k零樣本圖像分類、MS-COCO圖像檢索和ADE20K語(yǔ)義分割,都觀察到了一致的趨勢(shì)。這表明MaMMUT的優(yōu)勢(shì)不局限于特定類型的任務(wù),而是一種普遍性能的提升。
第三,無(wú)論使用余弦還是恒定學(xué)習(xí)率調(diào)度器,都觀察到了相同的一致趨勢(shì)。這說(shuō)明即使使用計(jì)算成本降低98%的恒定學(xué)習(xí)率方案進(jìn)行規(guī)模法則推導(dǎo),仍能得出相同的結(jié)論。
研究還發(fā)現(xiàn),在較小規(guī)模的低性能范圍內(nèi),CLIP一致地優(yōu)于MaMMUT,但在較大計(jì)算規(guī)模的高性能范圍內(nèi),MaMMUT則一致地超越了CLIP。這就像是短跑選手和長(zhǎng)跑選手的對(duì)比——在短距離賽跑中,短跑選手更有優(yōu)勢(shì);但在長(zhǎng)距離比賽中,長(zhǎng)跑選手的耐力優(yōu)勢(shì)就會(huì)顯現(xiàn)出來(lái)。
通過(guò)驗(yàn)證擬合的方式,研究團(tuán)隊(duì)對(duì)只擬合到一定計(jì)算預(yù)算的規(guī)模法則進(jìn)行了外推,并計(jì)算了更大計(jì)算規(guī)模的均方誤差。他們觀察到,添加更多點(diǎn)到擬合中會(huì)減少保留點(diǎn)上的均方誤差,同時(shí)也減少了預(yù)測(cè)的不確定性。
五、數(shù)據(jù)集比較:哪種數(shù)據(jù)集更有效?
研究不僅比較了模型架構(gòu),還使用規(guī)模法則對(duì)不同的數(shù)據(jù)集進(jìn)行了比較。這就像是比較不同肥料對(duì)植物生長(zhǎng)的影響——通過(guò)觀察在不同肥料下植物生長(zhǎng)曲線的差異,可以判斷哪種肥料更有效。
對(duì)于DataComp-1.4B和Re-LAION-1.4B的比較,研究發(fā)現(xiàn),對(duì)于CLIP和MaMMUT,在DataComp-1.4B上訓(xùn)練提供了更好的零樣本ImageNet-1k分類可擴(kuò)展性。然而,在MS-COCO檢索方面,兩個(gè)數(shù)據(jù)集的可擴(kuò)展性和性能相似,Re-LAION-1.4B略有優(yōu)勢(shì)。
研究還比較了開(kāi)源數(shù)據(jù)集與閉源數(shù)據(jù)集WIT-400M的性能。使用更密集的規(guī)模法則推導(dǎo)測(cè)量,研究確認(rèn)了之前工作的發(fā)現(xiàn)——閉源數(shù)據(jù)集WIT-400M在零樣本分類上有更好的擴(kuò)展趨勢(shì),但在零樣本檢索上擴(kuò)展趨勢(shì)更差。這是即使在規(guī)模法則推導(dǎo)有重大差異的情況下,仍觀察到一致趨勢(shì),證明了基于規(guī)模法則的比較的穩(wěn)健性。
DataComp-1.4B可以被視為Re-LAION-1.4B的改進(jìn)版本,在分類上具有更強(qiáng)的可擴(kuò)展性,媲美WIT-400M,同時(shí)在檢索上獲得的性能與Re-LAION-1.4B相當(dāng),優(yōu)于WIT-400M。
此外,研究還提供了Re-LAION、DataComp和DFN的比較。對(duì)于DFN,研究只測(cè)量了高達(dá)300M的樣本數(shù)量和高達(dá)L/14的模型規(guī)模,因此基于高達(dá)10^11 GFLOPS的計(jì)算規(guī)模進(jìn)行比較。結(jié)果顯示,在DFN-1.4B上訓(xùn)練提供了更強(qiáng)的可擴(kuò)展性,在CLIP和MaMMUT架構(gòu)上均超過(guò)了DataComp和Re-LAION,無(wú)論是對(duì)于零樣本ImageNet-1k分類還是MSCOCO檢索。盡管用于數(shù)據(jù)集比較的計(jì)算較低,趨勢(shì)的不確定性也更高,但測(cè)量的趨勢(shì)清晰一致,允許得出有利于DFN-1.4B而非其他數(shù)據(jù)集的結(jié)論。
六、MaMMUT的數(shù)據(jù)效率和最優(yōu)數(shù)據(jù)集規(guī)模
研究進(jìn)一步分析了CLIP和MaMMUT的數(shù)據(jù)效率和計(jì)算最優(yōu)數(shù)據(jù)集規(guī)模。這就像是研究不同學(xué)習(xí)方法的效率——相同學(xué)習(xí)時(shí)間內(nèi),哪種方法能讓學(xué)生掌握更多知識(shí)。
研究顯示,MaMMUT展現(xiàn)出比CLIP更高的數(shù)據(jù)效率。隨著訓(xùn)練樣本數(shù)量的增加,MaMMUT在ImageNet-1k零樣本圖像分類上取得了更好的性能。同時(shí),MaMMUT需要更少的訓(xùn)練樣本來(lái)實(shí)現(xiàn)計(jì)算最優(yōu)性能。這表明MaMMUT比CLIP更有效地利用訓(xùn)練數(shù)據(jù),泛化能力更強(qiáng),隨著數(shù)據(jù)增加擴(kuò)展得更好。
研究還提供了未見(jiàn)計(jì)算規(guī)模的最優(yōu)訓(xùn)練樣本數(shù)量估計(jì)。例如,對(duì)于計(jì)算預(yù)算為2.14e+12 GFLOPs(對(duì)應(yīng)CLIP ViT-L-14在12.8B圖像-文本對(duì)上訓(xùn)練),預(yù)測(cè)的計(jì)算最優(yōu)樣本數(shù)量為2.30e+10,而對(duì)于計(jì)算預(yù)算為2.59e+12 GFLOPs(對(duì)應(yīng)MaMMUT ViT-L-14在12.8B樣本上訓(xùn)練),預(yù)測(cè)的計(jì)算最優(yōu)樣本數(shù)量為1.42e+10。
這些結(jié)果表明,MaMMUT是一個(gè)更具可擴(kuò)展性的模型,與使用Eq.1擬合實(shí)驗(yàn)數(shù)據(jù)的估計(jì)一致。簡(jiǎn)而言之,MaMMUT能更高效地利用數(shù)據(jù)和計(jì)算資源,特別是在大規(guī)模場(chǎng)景下。
七、與其他架構(gòu)的比較:誰(shuí)是真正的冠軍?
除了CLIP和MaMMUT,研究還調(diào)查了其他模型架構(gòu):SigLIP(使用sigmoid損失代替softmax的CLIP)、CoCa(使用編碼器-解碼器文本塔的對(duì)比+標(biāo)題損失,而MaMMUT僅使用解碼器)和Cap(純標(biāo)題生成器)。這些模型都在DataComp-1.4B上進(jìn)行了訓(xùn)練,以便與openCLIP和openMaMMUT進(jìn)行比較。
研究結(jié)果顯示,CLIP和SigLIP在ImageNet-1k分類上具有非常相似的擴(kuò)展行為,而openMaMMUT在相同計(jì)算規(guī)模上一致超過(guò)CoCa。值得注意的是,分析表明SigLIP的可擴(kuò)展性與CLIP相似甚至更差,這與近期SigLIP因其架構(gòu)優(yōu)勢(shì)(特別是使用sigmoid傳遞函數(shù)代替softmax)而成為視覺(jué)編碼器更好選擇的說(shuō)法相矛盾。在研究中嚴(yán)格控制相同訓(xùn)練數(shù)據(jù)的實(shí)驗(yàn)中,沒(méi)有發(fā)現(xiàn)SigLIP相對(duì)于標(biāo)準(zhǔn)CLIP有任何優(yōu)勢(shì)。
研究還觀察到,僅使用解碼器的MaMMUT在相同計(jì)算規(guī)模上超過(guò)了編碼器-解碼器的CoCa,表明MaMMUT更簡(jiǎn)單、參數(shù)效率更高的架構(gòu)可能更可取。
此外,研究發(fā)現(xiàn)MaMMUT的擴(kuò)展性優(yōu)于Cap,顯示對(duì)比和標(biāo)題損失的組合是有利的。研究還看到Cap的表現(xiàn)甚至不如標(biāo)準(zhǔn)CLIP,暗示Cap作為僅基于標(biāo)題生成器的架構(gòu)在0樣本(zero-shot)情景下不是一個(gè)好的可擴(kuò)展性候選,進(jìn)一步證明對(duì)比損失是0樣本分類可擴(kuò)展架構(gòu)的重要組成部分。
值得注意的是,Cap只能使用基于對(duì)數(shù)似然的評(píng)估進(jìn)行零樣本分類任務(wù),而CLIP和MaMMUT除此之外還可以使用基于嵌入相似性的評(píng)估,這要?dú)w功于它們的對(duì)比損失。研究結(jié)果表明,openCLIP和openMaMMUT中使用的基于嵌入相似性的評(píng)估比基于對(duì)數(shù)似然的評(píng)估具有強(qiáng)大的優(yōu)勢(shì),而且執(zhí)行成本也更低。由于缺少對(duì)比損失,Cap在架構(gòu)上處于劣勢(shì),無(wú)法使用基于相似性的評(píng)估,這導(dǎo)致其在0樣本情景下表現(xiàn)較差。
八、基于規(guī)模法則的預(yù)測(cè):未來(lái)何去何從?
研究團(tuán)隊(duì)還使用派生的規(guī)模法則為未見(jiàn)的計(jì)算規(guī)模提供了預(yù)測(cè)。這就像是根據(jù)球員的歷史表現(xiàn)曲線預(yù)測(cè)他在未來(lái)更高水平比賽中的表現(xiàn)。
對(duì)于在DataComp-1.4B上訓(xùn)練的MaMMUT和CLIP,研究團(tuán)隊(duì)預(yù)測(cè)了未見(jiàn)計(jì)算預(yù)算2.14e+12 GFLOPs(對(duì)應(yīng)CLIP ViT-L-14在12.8B圖像-文本對(duì)上訓(xùn)練)和2.59e+12 GFLOPs(對(duì)應(yīng)MaMMUT ViT-L-14在12.8B樣本上訓(xùn)練)的性能。預(yù)測(cè)結(jié)果顯示MaMMUT優(yōu)于CLIP。
作為對(duì)較大規(guī)模的預(yù)測(cè)測(cè)試,對(duì)于在DataComp-1.4B的12.8B樣本上訓(xùn)練的CLIP ViT-L-14,研究團(tuán)隊(duì)的ImageNet-1k零樣本準(zhǔn)確率預(yù)測(cè)(79.6%)接近原始DataComp工作中報(bào)告的性能(79.2%)。實(shí)際測(cè)量的性能完全在預(yù)測(cè)置信區(qū)間內(nèi)。
值得注意的是,DataComp原始工作中測(cè)量的性能是在大量樣本重復(fù)的情況下進(jìn)行的(在DataComp-1.4B上的12.8B約為9倍重復(fù)),而研究團(tuán)隊(duì)的預(yù)測(cè)是針對(duì)獨(dú)特或低重復(fù)場(chǎng)景進(jìn)行的,這也可能解釋預(yù)測(cè)中較高性能的趨勢(shì)。
研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)基于研究發(fā)現(xiàn)的大型模型openMaMMUT-L/14。該模型在DataComp-1.4B的12.8B圖像-文本樣本上訓(xùn)練,在ImageNet-1k零樣本準(zhǔn)確率上達(dá)到了80.3%,優(yōu)于在相同DataComp-1.4B預(yù)算12.8B上預(yù)訓(xùn)練的openCLIP(79.2%),甚至與具有更大預(yù)訓(xùn)練計(jì)算量的模型如SigLIP相媲美。openMaMMUT代表了一個(gè)高性能、完全可復(fù)現(xiàn)的替代方案,擁有公開(kāi)可用的數(shù)據(jù)和訓(xùn)練代碼。
需要注意的是,在12.8B樣本規(guī)模上,由于重復(fù)量高,性能低于研究團(tuán)隊(duì)對(duì)獨(dú)特樣本訓(xùn)練的82%預(yù)測(cè)。這表明在更大規(guī)模的開(kāi)放數(shù)據(jù)集上,模型性能可能會(huì)更接近預(yù)測(cè)值。
九、深入理解結(jié)果:穩(wěn)健的比較框架
研究團(tuán)隊(duì)的方法提供了一個(gè)穩(wěn)健的框架,用于比較開(kāi)源基礎(chǔ)模型和數(shù)據(jù)集。這就像是建立一個(gè)公平的運(yùn)動(dòng)員評(píng)價(jià)系統(tǒng),不僅看一場(chǎng)比賽的成績(jī),而是全面評(píng)估運(yùn)動(dòng)員在各種條件下的表現(xiàn)曲線。
研究表明,通過(guò)規(guī)模法則推導(dǎo),可以基于估計(jì)的可擴(kuò)展性進(jìn)行模型和數(shù)據(jù)集比較,涵蓋廣泛的規(guī)模范圍和各種下游任務(wù),并與相同的總預(yù)訓(xùn)練計(jì)算量對(duì)齊。這種比較可以通過(guò)檢查不同場(chǎng)景中擴(kuò)展趨勢(shì)的一致性來(lái)驗(yàn)證。
例如,openMaMMUT的可擴(kuò)展性強(qiáng)于openCLIP,不僅在零樣本分類和檢索上,在分割的廣泛規(guī)模范圍內(nèi)也展現(xiàn)了優(yōu)勢(shì),且跨越所有三個(gè)研究的數(shù)據(jù)集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B。
這種通過(guò)規(guī)模法則進(jìn)行的比較提供了更好的保護(hù),避免了僅基于少數(shù)幾個(gè)選定點(diǎn)(尤其是僅在小規(guī)模上)進(jìn)行比較時(shí)可能得出的誤導(dǎo)性結(jié)論。在較小規(guī)模上,openCLIP優(yōu)于具有更強(qiáng)可擴(kuò)展性的openMaMMUT,而后者在較大規(guī)模上取得了領(lǐng)先。
值得注意的是,研究觀察到openMaMMUT超越openCLIP的計(jì)算規(guī)模閾值在各種數(shù)據(jù)集、零樣本下游任務(wù)和學(xué)習(xí)調(diào)度中一致地位于10^10和10^11 GFLOPS之間。這進(jìn)一步證明了基于規(guī)模法則比較的穩(wěn)健性。
為了正確估計(jì)這些交叉點(diǎn),對(duì)較小規(guī)模進(jìn)行密集測(cè)量并使用允許準(zhǔn)確外推到較大規(guī)模的擬合程序是至關(guān)重要的。
十、結(jié)論與未來(lái)展望:更透明、更科學(xué)的模型評(píng)估
總結(jié)來(lái)說(shuō),這項(xiàng)研究展示了如何通過(guò)規(guī)模法則推導(dǎo)實(shí)現(xiàn)系統(tǒng)的學(xué)習(xí)程序、模型和數(shù)據(jù)集比較。研究團(tuán)隊(duì)使用了openCLIP和基于MaMMUT的openMaMMUT這兩個(gè)重要的開(kāi)源語(yǔ)言-視覺(jué)模型,它們分別依賴于僅圖像-文本對(duì)比或?qū)Ρ燃訕?biāo)題生成損失,在三個(gè)重要的開(kāi)放參考數(shù)據(jù)集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B上進(jìn)行訓(xùn)練。
研究證明,推導(dǎo)規(guī)模法則可以基于模型和數(shù)據(jù)集在廣泛規(guī)模范圍內(nèi)和各種下游任務(wù)上的估計(jì)可擴(kuò)展性進(jìn)行比較,并與相同的總預(yù)訓(xùn)練計(jì)算量對(duì)齊。這種比較可以通過(guò)檢查不同場(chǎng)景中擴(kuò)展趨勢(shì)的一致性來(lái)驗(yàn)證。例如,openMaMMUT的可擴(kuò)展性比openCLIP更強(qiáng),不僅在零樣本分類和檢索上,在分割上也在廣泛的規(guī)模范圍內(nèi)展現(xiàn)了優(yōu)勢(shì),且跨越所有三個(gè)研究的數(shù)據(jù)集。
通過(guò)規(guī)模法則進(jìn)行比較提供了更好的保護(hù),避免了僅基于少數(shù)幾個(gè)選定點(diǎn)的比較可能導(dǎo)致的誤導(dǎo)性結(jié)論,特別是當(dāng)這種比較僅在小規(guī)模上進(jìn)行時(shí)。在較小規(guī)模上,openCLIP優(yōu)于具有更強(qiáng)可擴(kuò)展性的openMaMMUT,后者在較大規(guī)模上取得了領(lǐng)先。
值得注意的是,研究觀察到openMaMMUT超越openCLIP的計(jì)算規(guī)模閾值在各種數(shù)據(jù)集、零樣本下游任務(wù)和學(xué)習(xí)調(diào)度中一致地位于10^10和10^11 GFLOPS之間。這進(jìn)一步證明了基于規(guī)模法則比較的穩(wěn)健性。
在研究中,團(tuán)隊(duì)使用了開(kāi)放數(shù)據(jù)集,其中包含1.4B個(gè)樣本。雖然這足以證明基于規(guī)模法則比較的有用性,但對(duì)于更大規(guī)模的訓(xùn)練預(yù)測(cè)需要更大的數(shù)據(jù)集。這些數(shù)據(jù)集也是訓(xùn)練預(yù)測(cè)具有強(qiáng)大能力的更大規(guī)模模型所必需的,因?yàn)樵谳^小數(shù)據(jù)集上的過(guò)多重復(fù)可能會(huì)導(dǎo)致性能下降。
研究團(tuán)隊(duì)強(qiáng)調(diào),雖然他們展示了通過(guò)規(guī)模法則推導(dǎo)可以進(jìn)行穩(wěn)健且可復(fù)現(xiàn)的比較,但這種方法關(guān)鍵依賴于整個(gè)流程的完全開(kāi)放性——包括數(shù)據(jù)集構(gòu)成、訓(xùn)練本身和下游評(píng)估。他們希望這項(xiàng)工作能鼓勵(lì)創(chuàng)建更多開(kāi)放成果,特別是開(kāi)放數(shù)據(jù)集,因?yàn)檫@些仍然很稀缺,以促進(jìn)協(xié)作和可復(fù)現(xiàn)地向更強(qiáng)大、可擴(kuò)展的開(kāi)源基礎(chǔ)模型邁進(jìn),這些進(jìn)步可以通過(guò)獨(dú)立驗(yàn)證和系統(tǒng)比較來(lái)指導(dǎo)。
最終,這項(xiàng)研究不僅為人工智能研究社區(qū)提供了一種更科學(xué)、更透明的模型評(píng)估方法,也為普通用戶選擇和使用這些模型提供了更可靠的參考依據(jù)。就像我們?cè)谶x擇產(chǎn)品時(shí)不應(yīng)僅看一個(gè)評(píng)測(cè)分?jǐn)?shù),而應(yīng)了解產(chǎn)品在各種使用場(chǎng)景和強(qiáng)度下的整體表現(xiàn)曲線一樣,人工智能模型的評(píng)估也應(yīng)當(dāng)更全面、更系統(tǒng)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。