av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 規(guī)模法則讓開(kāi)源視覺(jué)語(yǔ)言模型比拼更公平:如何證明MaMMUT優(yōu)于CLIP?

規(guī)模法則讓開(kāi)源視覺(jué)語(yǔ)言模型比拼更公平:如何證明MaMMUT優(yōu)于CLIP?

2025-06-10 09:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:25 ? 科技行者

在人工智能研究的廣闊天空中,基礎(chǔ)模型就像是支撐整個(gè)生態(tài)系統(tǒng)的"地基",而評(píng)估這些地基哪個(gè)更牢固,一直是學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的焦點(diǎn)。來(lái)自LAION、于利希超級(jí)計(jì)算中心(JSC)、意大利國(guó)家信息科學(xué)與技術(shù)研究院(CNR)和埃因霍溫理工大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究,探索了如何通過(guò)規(guī)模法則(Scaling Law)更科學(xué)地比較開(kāi)源視覺(jué)語(yǔ)言模型。這項(xiàng)研究發(fā)表于2025年6月5日的arXiv預(yù)印本平臺(tái)(arXiv:2506.04598v1)。

想象一下,你想比較兩種不同的健身方法哪個(gè)更有效。如果只是看一個(gè)人鍛煉一周的效果,結(jié)論可能很片面;但如果你能追蹤多位使用者在不同時(shí)長(zhǎng)(一周、一個(gè)月、半年)的進(jìn)步曲線,就能更準(zhǔn)確地判斷哪種方法真正更有效。研究團(tuán)隊(duì)正是使用了類似的"規(guī)模法則"思路,通過(guò)測(cè)量模型在不同計(jì)算資源和數(shù)據(jù)量下的表現(xiàn)曲線,而不是僅僅看某一個(gè)特定配置下的性能表現(xiàn)。

這項(xiàng)研究首次對(duì)兩種重要的語(yǔ)言-視覺(jué)學(xué)習(xí)方法——CLIP(僅使用對(duì)比學(xué)習(xí))和MaMMUT(同時(shí)使用對(duì)比學(xué)習(xí)和生成式標(biāo)題學(xué)習(xí))——進(jìn)行了全面的規(guī)模法則分析。研究團(tuán)隊(duì)在廣泛的模型規(guī)模和訓(xùn)練樣本數(shù)量上進(jìn)行了密集測(cè)量,確保預(yù)測(cè)的準(zhǔn)確性。結(jié)果顯示,雖然在較小的計(jì)算規(guī)模下CLIP表現(xiàn)更優(yōu),但隨著規(guī)模增加,MaMMUT展現(xiàn)出更強(qiáng)的可擴(kuò)展性和數(shù)據(jù)效率,在大規(guī)模計(jì)算資源條件下性能超過(guò)CLIP。這一趨勢(shì)在不同的下游任務(wù)(分類、檢索、分割)和不同的開(kāi)放數(shù)據(jù)集(DataComp、DFN和Re-LAION)中都得到了一致驗(yàn)證。

研究團(tuán)隊(duì)還發(fā)現(xiàn),即使使用計(jì)算成本降低98%的恒定學(xué)習(xí)率方案進(jìn)行規(guī)模法則推導(dǎo),仍然能得出相同的結(jié)論,證明了這種比較方法的穩(wěn)健性。基于研究發(fā)現(xiàn),團(tuán)隊(duì)還訓(xùn)練了一個(gè)開(kāi)放的大型模型openMaMMUT-L/14,它在ImageNet-1k零樣本分類上達(dá)到了80.3%的準(zhǔn)確率。

這項(xiàng)研究為如何科學(xué)地比較開(kāi)源基礎(chǔ)模型和數(shù)據(jù)集提供了新方法,避免了僅基于單一參考點(diǎn)的片面比較,為系統(tǒng)性地改進(jìn)開(kāi)源基礎(chǔ)模型和數(shù)據(jù)集鋪平了道路。

一、為什么我們需要更好的模型比較方法?

想象一下,你去買(mǎi)跑鞋時(shí)面臨兩個(gè)品牌的選擇。銷售員告訴你:"A品牌在專業(yè)馬拉松選手中更受歡迎,而B(niǎo)品牌在普通跑步愛(ài)好者中口碑更好。"這樣的信息對(duì)你的選擇其實(shí)幫助不大,因?yàn)槟悴恢肋@些評(píng)價(jià)背后的具體測(cè)試條件、使用者特點(diǎn)以及評(píng)價(jià)標(biāo)準(zhǔn)是什么。

人工智能領(lǐng)域的基礎(chǔ)模型比較也面臨類似的問(wèn)題。通常,研究人員會(huì)在一系列標(biāo)準(zhǔn)化的參考任務(wù)上比較不同的基礎(chǔ)模型。然而,這種比較往往只在一個(gè)或少數(shù)幾個(gè)選定的模型規(guī)模和數(shù)據(jù)規(guī)模上進(jìn)行,而且沒(méi)有仔細(xì)對(duì)齊投入訓(xùn)練的計(jì)算資源。更糟糕的是,重要的訓(xùn)練數(shù)據(jù)集通常是封閉的,無(wú)法公開(kāi)獲取。這使得難以確定所觀察到的模型差異是由算法改進(jìn)、數(shù)據(jù)集質(zhì)量還是訓(xùn)練計(jì)算資源的差異造成的,或者是它們的組合效應(yīng)。同時(shí),也無(wú)法確定這種比較是否適用于其他規(guī)模。

研究團(tuán)隊(duì)通過(guò)使用規(guī)模法則推導(dǎo)來(lái)解決這些問(wèn)題?;A(chǔ)模型展現(xiàn)出的規(guī)模法則允許我們從較小規(guī)模的測(cè)量中確定模型性能與總訓(xùn)練計(jì)算量之間的依賴關(guān)系,從而能夠在廣泛的規(guī)模范圍內(nèi)進(jìn)行預(yù)測(cè),而不僅僅是一個(gè)或幾個(gè)選定的點(diǎn)。

研究小組選擇了語(yǔ)言-視覺(jué)學(xué)習(xí)作為模型和數(shù)據(jù)集比較的重要場(chǎng)景。對(duì)比性語(yǔ)言-圖像預(yù)訓(xùn)練(CLIP)是一種成熟的學(xué)習(xí)程序,其產(chǎn)生的模型展示了令人印象深刻的穩(wěn)健性和遷移能力,已經(jīng)被廣泛應(yīng)用于許多設(shè)置中,如視覺(jué)-語(yǔ)言指令微調(diào)模型(如LLaVa、InternVL、SigLIP)和文本到圖像生成模型。自CLIP首次發(fā)布以來(lái),提出了許多擴(kuò)展,如CoCa、MaMMUT和SigLIP。這些工作聲稱提供了比標(biāo)準(zhǔn)CLIP更高性能的語(yǔ)言-視覺(jué)模型。然而,目前還不清楚這些訓(xùn)練程序中哪一個(gè)因?yàn)楹畏N原因更好,以及對(duì)標(biāo)準(zhǔn)CLIP程序的改進(jìn)聲明是否在各個(gè)規(guī)模上都成立。

二、科學(xué)的模型比較:密集測(cè)量與規(guī)模法則

研究團(tuán)隊(duì)的方法就像是進(jìn)行一場(chǎng)全面而系統(tǒng)的科學(xué)實(shí)驗(yàn),而不是簡(jiǎn)單地比較兩款產(chǎn)品的某一項(xiàng)指標(biāo)。他們不僅關(guān)注最終結(jié)果,更關(guān)注不同配置下性能變化的整體趨勢(shì)。

在這項(xiàng)研究中,團(tuán)隊(duì)使用了三個(gè)開(kāi)放參考數(shù)據(jù)集:DataComp-1.4B、DFN-1.4B和Re-LAION-1.4B,對(duì)CLIP和MaMMUT這兩種重要的程序進(jìn)行了大規(guī)模研究。他們?cè)谀P图軜?gòu)大小(從S/32到H/14)和所見(jiàn)樣本數(shù)量(從1.28M到3B)的廣泛跨度上進(jìn)行了密集測(cè)量,評(píng)估下游性能的任務(wù)涵蓋零樣本分類、檢索和分割。

研究使用的CLIP模型基于對(duì)比InfoNCE損失訓(xùn)練,而MaMMUT模型則結(jié)合了對(duì)比損失和標(biāo)題生成損失。為確保公平比較,研究團(tuán)隊(duì)使用了完全相同的訓(xùn)練環(huán)境和評(píng)估流程。

具體來(lái)說(shuō),研究中考慮了15種不同的模型配置(ViT-S、ViT-M、ViT-B、ViT-L和ViT-H視覺(jué)編碼器,每種都有32x32、16x16和14x14的不同patch尺寸),以及11個(gè)不同的樣本數(shù)量配置(從1.28M到3.07B)。研究還比較了余弦和恒定學(xué)習(xí)率調(diào)度器的效果。

在下游評(píng)估方面,研究使用了零樣本分類(在DataComp評(píng)估套件中的35個(gè)分類任務(wù)上評(píng)估top-1準(zhǔn)確率)、零樣本檢索(在MS-COCO上評(píng)估圖像和文本檢索Recall@5指標(biāo))以及分割(在ADE20K上進(jìn)行語(yǔ)義分割)。

這種全面而系統(tǒng)的評(píng)估方法,就像是對(duì)運(yùn)動(dòng)員進(jìn)行全面的體能測(cè)試,而不僅僅是看100米短跑成績(jī),從而確保了比較結(jié)果的可靠性和全面性。

三、規(guī)模法則推導(dǎo):理解模型如何隨規(guī)模增長(zhǎng)而變化

為了理解模型性能如何隨著計(jì)算資源和數(shù)據(jù)量的增加而變化,研究團(tuán)隊(duì)使用了規(guī)模法則推導(dǎo)。這就像是研究植物生長(zhǎng)規(guī)律——通過(guò)測(cè)量不同階段的高度,你可以預(yù)測(cè)它未來(lái)的生長(zhǎng)曲線。

在規(guī)模法則的推導(dǎo)過(guò)程中,研究團(tuán)隊(duì)既改變了模型架構(gòu)大小(文本和視覺(jué)塔的參數(shù)數(shù)量),也改變了所見(jiàn)樣本數(shù)量和patch大小。一般來(lái)說(shuō),計(jì)算量與性能之間遵循冪律關(guān)系:L = aC^b,其中C是計(jì)算量(以FLOPs計(jì)),L是誤差率。

由于零樣本圖像分類等任務(wù)的特殊性,研究團(tuán)隊(duì)考慮了小計(jì)算規(guī)模下的飽和效應(yīng)和任務(wù)固有的性能上限,采用了以下函數(shù)形式來(lái)擬合誤差率:

L(C) = Ac · (C + Bc)^(-αc) + Ec

其中αc > 0,Ec代表不可約誤差。

對(duì)于每種計(jì)算規(guī)模C和模型架構(gòu)的組合,研究團(tuán)隊(duì)取誤差率最小的點(diǎn)。為了評(píng)估擬合質(zhì)量,他們使用了計(jì)算預(yù)算低于閾值的點(diǎn)進(jìn)行擬合,然后計(jì)算剩余(保留)點(diǎn)上的均方誤差。

這種方法就像是天氣預(yù)報(bào)——通過(guò)已知的數(shù)據(jù)點(diǎn)建立模型,然后檢驗(yàn)?zāi)P蛯?duì)未來(lái)天氣的預(yù)測(cè)準(zhǔn)確性,從而驗(yàn)證模型的可靠性。

四、研究發(fā)現(xiàn):MaMMUT的規(guī)模優(yōu)勢(shì)

研究的核心發(fā)現(xiàn)就像是一場(chǎng)馬拉松比賽——在起跑階段CLIP領(lǐng)先,但隨著距離增加,MaMMUT逐漸顯示出更強(qiáng)的耐力和速度優(yōu)勢(shì)。

具體來(lái)說(shuō),研究發(fā)現(xiàn)MaMMUT在可擴(kuò)展性方面一致優(yōu)于CLIP。這反映在等效計(jì)算預(yù)算下較大規(guī)模時(shí)的較低誤差率上,交叉點(diǎn)始終位于10^10和10^11 GFLOPS之間。這表明隨著計(jì)算量增加,MaMMUT表現(xiàn)出更好的效率和泛化能力。

重要的是,這一趨勢(shì)在不同條件下都得到了一致驗(yàn)證:

首先,在不同的預(yù)訓(xùn)練數(shù)據(jù)集上,包括DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B,均觀察到相同的趨勢(shì)。這就像是三場(chǎng)不同賽道上的馬拉松,MaMMUT都展現(xiàn)出了同樣的長(zhǎng)距離優(yōu)勢(shì)。

其次,在不同的下游任務(wù)上,包括ImageNet-1k零樣本圖像分類、MS-COCO圖像檢索和ADE20K語(yǔ)義分割,都觀察到了一致的趨勢(shì)。這表明MaMMUT的優(yōu)勢(shì)不局限于特定類型的任務(wù),而是一種普遍性能的提升。

第三,無(wú)論使用余弦還是恒定學(xué)習(xí)率調(diào)度器,都觀察到了相同的一致趨勢(shì)。這說(shuō)明即使使用計(jì)算成本降低98%的恒定學(xué)習(xí)率方案進(jìn)行規(guī)模法則推導(dǎo),仍能得出相同的結(jié)論。

研究還發(fā)現(xiàn),在較小規(guī)模的低性能范圍內(nèi),CLIP一致地優(yōu)于MaMMUT,但在較大計(jì)算規(guī)模的高性能范圍內(nèi),MaMMUT則一致地超越了CLIP。這就像是短跑選手和長(zhǎng)跑選手的對(duì)比——在短距離賽跑中,短跑選手更有優(yōu)勢(shì);但在長(zhǎng)距離比賽中,長(zhǎng)跑選手的耐力優(yōu)勢(shì)就會(huì)顯現(xiàn)出來(lái)。

通過(guò)驗(yàn)證擬合的方式,研究團(tuán)隊(duì)對(duì)只擬合到一定計(jì)算預(yù)算的規(guī)模法則進(jìn)行了外推,并計(jì)算了更大計(jì)算規(guī)模的均方誤差。他們觀察到,添加更多點(diǎn)到擬合中會(huì)減少保留點(diǎn)上的均方誤差,同時(shí)也減少了預(yù)測(cè)的不確定性。

五、數(shù)據(jù)集比較:哪種數(shù)據(jù)集更有效?

研究不僅比較了模型架構(gòu),還使用規(guī)模法則對(duì)不同的數(shù)據(jù)集進(jìn)行了比較。這就像是比較不同肥料對(duì)植物生長(zhǎng)的影響——通過(guò)觀察在不同肥料下植物生長(zhǎng)曲線的差異,可以判斷哪種肥料更有效。

對(duì)于DataComp-1.4B和Re-LAION-1.4B的比較,研究發(fā)現(xiàn),對(duì)于CLIP和MaMMUT,在DataComp-1.4B上訓(xùn)練提供了更好的零樣本ImageNet-1k分類可擴(kuò)展性。然而,在MS-COCO檢索方面,兩個(gè)數(shù)據(jù)集的可擴(kuò)展性和性能相似,Re-LAION-1.4B略有優(yōu)勢(shì)。

研究還比較了開(kāi)源數(shù)據(jù)集與閉源數(shù)據(jù)集WIT-400M的性能。使用更密集的規(guī)模法則推導(dǎo)測(cè)量,研究確認(rèn)了之前工作的發(fā)現(xiàn)——閉源數(shù)據(jù)集WIT-400M在零樣本分類上有更好的擴(kuò)展趨勢(shì),但在零樣本檢索上擴(kuò)展趨勢(shì)更差。這是即使在規(guī)模法則推導(dǎo)有重大差異的情況下,仍觀察到一致趨勢(shì),證明了基于規(guī)模法則的比較的穩(wěn)健性。

DataComp-1.4B可以被視為Re-LAION-1.4B的改進(jìn)版本,在分類上具有更強(qiáng)的可擴(kuò)展性,媲美WIT-400M,同時(shí)在檢索上獲得的性能與Re-LAION-1.4B相當(dāng),優(yōu)于WIT-400M。

此外,研究還提供了Re-LAION、DataComp和DFN的比較。對(duì)于DFN,研究只測(cè)量了高達(dá)300M的樣本數(shù)量和高達(dá)L/14的模型規(guī)模,因此基于高達(dá)10^11 GFLOPS的計(jì)算規(guī)模進(jìn)行比較。結(jié)果顯示,在DFN-1.4B上訓(xùn)練提供了更強(qiáng)的可擴(kuò)展性,在CLIP和MaMMUT架構(gòu)上均超過(guò)了DataComp和Re-LAION,無(wú)論是對(duì)于零樣本ImageNet-1k分類還是MSCOCO檢索。盡管用于數(shù)據(jù)集比較的計(jì)算較低,趨勢(shì)的不確定性也更高,但測(cè)量的趨勢(shì)清晰一致,允許得出有利于DFN-1.4B而非其他數(shù)據(jù)集的結(jié)論。

六、MaMMUT的數(shù)據(jù)效率和最優(yōu)數(shù)據(jù)集規(guī)模

研究進(jìn)一步分析了CLIP和MaMMUT的數(shù)據(jù)效率和計(jì)算最優(yōu)數(shù)據(jù)集規(guī)模。這就像是研究不同學(xué)習(xí)方法的效率——相同學(xué)習(xí)時(shí)間內(nèi),哪種方法能讓學(xué)生掌握更多知識(shí)。

研究顯示,MaMMUT展現(xiàn)出比CLIP更高的數(shù)據(jù)效率。隨著訓(xùn)練樣本數(shù)量的增加,MaMMUT在ImageNet-1k零樣本圖像分類上取得了更好的性能。同時(shí),MaMMUT需要更少的訓(xùn)練樣本來(lái)實(shí)現(xiàn)計(jì)算最優(yōu)性能。這表明MaMMUT比CLIP更有效地利用訓(xùn)練數(shù)據(jù),泛化能力更強(qiáng),隨著數(shù)據(jù)增加擴(kuò)展得更好。

研究還提供了未見(jiàn)計(jì)算規(guī)模的最優(yōu)訓(xùn)練樣本數(shù)量估計(jì)。例如,對(duì)于計(jì)算預(yù)算為2.14e+12 GFLOPs(對(duì)應(yīng)CLIP ViT-L-14在12.8B圖像-文本對(duì)上訓(xùn)練),預(yù)測(cè)的計(jì)算最優(yōu)樣本數(shù)量為2.30e+10,而對(duì)于計(jì)算預(yù)算為2.59e+12 GFLOPs(對(duì)應(yīng)MaMMUT ViT-L-14在12.8B樣本上訓(xùn)練),預(yù)測(cè)的計(jì)算最優(yōu)樣本數(shù)量為1.42e+10。

這些結(jié)果表明,MaMMUT是一個(gè)更具可擴(kuò)展性的模型,與使用Eq.1擬合實(shí)驗(yàn)數(shù)據(jù)的估計(jì)一致。簡(jiǎn)而言之,MaMMUT能更高效地利用數(shù)據(jù)和計(jì)算資源,特別是在大規(guī)模場(chǎng)景下。

七、與其他架構(gòu)的比較:誰(shuí)是真正的冠軍?

除了CLIP和MaMMUT,研究還調(diào)查了其他模型架構(gòu):SigLIP(使用sigmoid損失代替softmax的CLIP)、CoCa(使用編碼器-解碼器文本塔的對(duì)比+標(biāo)題損失,而MaMMUT僅使用解碼器)和Cap(純標(biāo)題生成器)。這些模型都在DataComp-1.4B上進(jìn)行了訓(xùn)練,以便與openCLIP和openMaMMUT進(jìn)行比較。

研究結(jié)果顯示,CLIP和SigLIP在ImageNet-1k分類上具有非常相似的擴(kuò)展行為,而openMaMMUT在相同計(jì)算規(guī)模上一致超過(guò)CoCa。值得注意的是,分析表明SigLIP的可擴(kuò)展性與CLIP相似甚至更差,這與近期SigLIP因其架構(gòu)優(yōu)勢(shì)(特別是使用sigmoid傳遞函數(shù)代替softmax)而成為視覺(jué)編碼器更好選擇的說(shuō)法相矛盾。在研究中嚴(yán)格控制相同訓(xùn)練數(shù)據(jù)的實(shí)驗(yàn)中,沒(méi)有發(fā)現(xiàn)SigLIP相對(duì)于標(biāo)準(zhǔn)CLIP有任何優(yōu)勢(shì)。

研究還觀察到,僅使用解碼器的MaMMUT在相同計(jì)算規(guī)模上超過(guò)了編碼器-解碼器的CoCa,表明MaMMUT更簡(jiǎn)單、參數(shù)效率更高的架構(gòu)可能更可取。

此外,研究發(fā)現(xiàn)MaMMUT的擴(kuò)展性優(yōu)于Cap,顯示對(duì)比和標(biāo)題損失的組合是有利的。研究還看到Cap的表現(xiàn)甚至不如標(biāo)準(zhǔn)CLIP,暗示Cap作為僅基于標(biāo)題生成器的架構(gòu)在0樣本(zero-shot)情景下不是一個(gè)好的可擴(kuò)展性候選,進(jìn)一步證明對(duì)比損失是0樣本分類可擴(kuò)展架構(gòu)的重要組成部分。

值得注意的是,Cap只能使用基于對(duì)數(shù)似然的評(píng)估進(jìn)行零樣本分類任務(wù),而CLIP和MaMMUT除此之外還可以使用基于嵌入相似性的評(píng)估,這要?dú)w功于它們的對(duì)比損失。研究結(jié)果表明,openCLIP和openMaMMUT中使用的基于嵌入相似性的評(píng)估比基于對(duì)數(shù)似然的評(píng)估具有強(qiáng)大的優(yōu)勢(shì),而且執(zhí)行成本也更低。由于缺少對(duì)比損失,Cap在架構(gòu)上處于劣勢(shì),無(wú)法使用基于相似性的評(píng)估,這導(dǎo)致其在0樣本情景下表現(xiàn)較差。

八、基于規(guī)模法則的預(yù)測(cè):未來(lái)何去何從?

研究團(tuán)隊(duì)還使用派生的規(guī)模法則為未見(jiàn)的計(jì)算規(guī)模提供了預(yù)測(cè)。這就像是根據(jù)球員的歷史表現(xiàn)曲線預(yù)測(cè)他在未來(lái)更高水平比賽中的表現(xiàn)。

對(duì)于在DataComp-1.4B上訓(xùn)練的MaMMUT和CLIP,研究團(tuán)隊(duì)預(yù)測(cè)了未見(jiàn)計(jì)算預(yù)算2.14e+12 GFLOPs(對(duì)應(yīng)CLIP ViT-L-14在12.8B圖像-文本對(duì)上訓(xùn)練)和2.59e+12 GFLOPs(對(duì)應(yīng)MaMMUT ViT-L-14在12.8B樣本上訓(xùn)練)的性能。預(yù)測(cè)結(jié)果顯示MaMMUT優(yōu)于CLIP。

作為對(duì)較大規(guī)模的預(yù)測(cè)測(cè)試,對(duì)于在DataComp-1.4B的12.8B樣本上訓(xùn)練的CLIP ViT-L-14,研究團(tuán)隊(duì)的ImageNet-1k零樣本準(zhǔn)確率預(yù)測(cè)(79.6%)接近原始DataComp工作中報(bào)告的性能(79.2%)。實(shí)際測(cè)量的性能完全在預(yù)測(cè)置信區(qū)間內(nèi)。

值得注意的是,DataComp原始工作中測(cè)量的性能是在大量樣本重復(fù)的情況下進(jìn)行的(在DataComp-1.4B上的12.8B約為9倍重復(fù)),而研究團(tuán)隊(duì)的預(yù)測(cè)是針對(duì)獨(dú)特或低重復(fù)場(chǎng)景進(jìn)行的,這也可能解釋預(yù)測(cè)中較高性能的趨勢(shì)。

研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)基于研究發(fā)現(xiàn)的大型模型openMaMMUT-L/14。該模型在DataComp-1.4B的12.8B圖像-文本樣本上訓(xùn)練,在ImageNet-1k零樣本準(zhǔn)確率上達(dá)到了80.3%,優(yōu)于在相同DataComp-1.4B預(yù)算12.8B上預(yù)訓(xùn)練的openCLIP(79.2%),甚至與具有更大預(yù)訓(xùn)練計(jì)算量的模型如SigLIP相媲美。openMaMMUT代表了一個(gè)高性能、完全可復(fù)現(xiàn)的替代方案,擁有公開(kāi)可用的數(shù)據(jù)和訓(xùn)練代碼。

需要注意的是,在12.8B樣本規(guī)模上,由于重復(fù)量高,性能低于研究團(tuán)隊(duì)對(duì)獨(dú)特樣本訓(xùn)練的82%預(yù)測(cè)。這表明在更大規(guī)模的開(kāi)放數(shù)據(jù)集上,模型性能可能會(huì)更接近預(yù)測(cè)值。

九、深入理解結(jié)果:穩(wěn)健的比較框架

研究團(tuán)隊(duì)的方法提供了一個(gè)穩(wěn)健的框架,用于比較開(kāi)源基礎(chǔ)模型和數(shù)據(jù)集。這就像是建立一個(gè)公平的運(yùn)動(dòng)員評(píng)價(jià)系統(tǒng),不僅看一場(chǎng)比賽的成績(jī),而是全面評(píng)估運(yùn)動(dòng)員在各種條件下的表現(xiàn)曲線。

研究表明,通過(guò)規(guī)模法則推導(dǎo),可以基于估計(jì)的可擴(kuò)展性進(jìn)行模型和數(shù)據(jù)集比較,涵蓋廣泛的規(guī)模范圍和各種下游任務(wù),并與相同的總預(yù)訓(xùn)練計(jì)算量對(duì)齊。這種比較可以通過(guò)檢查不同場(chǎng)景中擴(kuò)展趨勢(shì)的一致性來(lái)驗(yàn)證。

例如,openMaMMUT的可擴(kuò)展性強(qiáng)于openCLIP,不僅在零樣本分類和檢索上,在分割的廣泛規(guī)模范圍內(nèi)也展現(xiàn)了優(yōu)勢(shì),且跨越所有三個(gè)研究的數(shù)據(jù)集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B。

這種通過(guò)規(guī)模法則進(jìn)行的比較提供了更好的保護(hù),避免了僅基于少數(shù)幾個(gè)選定點(diǎn)(尤其是僅在小規(guī)模上)進(jìn)行比較時(shí)可能得出的誤導(dǎo)性結(jié)論。在較小規(guī)模上,openCLIP優(yōu)于具有更強(qiáng)可擴(kuò)展性的openMaMMUT,而后者在較大規(guī)模上取得了領(lǐng)先。

值得注意的是,研究觀察到openMaMMUT超越openCLIP的計(jì)算規(guī)模閾值在各種數(shù)據(jù)集、零樣本下游任務(wù)和學(xué)習(xí)調(diào)度中一致地位于10^10和10^11 GFLOPS之間。這進(jìn)一步證明了基于規(guī)模法則比較的穩(wěn)健性。

為了正確估計(jì)這些交叉點(diǎn),對(duì)較小規(guī)模進(jìn)行密集測(cè)量并使用允許準(zhǔn)確外推到較大規(guī)模的擬合程序是至關(guān)重要的。

十、結(jié)論與未來(lái)展望:更透明、更科學(xué)的模型評(píng)估

總結(jié)來(lái)說(shuō),這項(xiàng)研究展示了如何通過(guò)規(guī)模法則推導(dǎo)實(shí)現(xiàn)系統(tǒng)的學(xué)習(xí)程序、模型和數(shù)據(jù)集比較。研究團(tuán)隊(duì)使用了openCLIP和基于MaMMUT的openMaMMUT這兩個(gè)重要的開(kāi)源語(yǔ)言-視覺(jué)模型,它們分別依賴于僅圖像-文本對(duì)比或?qū)Ρ燃訕?biāo)題生成損失,在三個(gè)重要的開(kāi)放參考數(shù)據(jù)集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B上進(jìn)行訓(xùn)練。

研究證明,推導(dǎo)規(guī)模法則可以基于模型和數(shù)據(jù)集在廣泛規(guī)模范圍內(nèi)和各種下游任務(wù)上的估計(jì)可擴(kuò)展性進(jìn)行比較,并與相同的總預(yù)訓(xùn)練計(jì)算量對(duì)齊。這種比較可以通過(guò)檢查不同場(chǎng)景中擴(kuò)展趨勢(shì)的一致性來(lái)驗(yàn)證。例如,openMaMMUT的可擴(kuò)展性比openCLIP更強(qiáng),不僅在零樣本分類和檢索上,在分割上也在廣泛的規(guī)模范圍內(nèi)展現(xiàn)了優(yōu)勢(shì),且跨越所有三個(gè)研究的數(shù)據(jù)集。

通過(guò)規(guī)模法則進(jìn)行比較提供了更好的保護(hù),避免了僅基于少數(shù)幾個(gè)選定點(diǎn)的比較可能導(dǎo)致的誤導(dǎo)性結(jié)論,特別是當(dāng)這種比較僅在小規(guī)模上進(jìn)行時(shí)。在較小規(guī)模上,openCLIP優(yōu)于具有更強(qiáng)可擴(kuò)展性的openMaMMUT,后者在較大規(guī)模上取得了領(lǐng)先。

值得注意的是,研究觀察到openMaMMUT超越openCLIP的計(jì)算規(guī)模閾值在各種數(shù)據(jù)集、零樣本下游任務(wù)和學(xué)習(xí)調(diào)度中一致地位于10^10和10^11 GFLOPS之間。這進(jìn)一步證明了基于規(guī)模法則比較的穩(wěn)健性。

在研究中,團(tuán)隊(duì)使用了開(kāi)放數(shù)據(jù)集,其中包含1.4B個(gè)樣本。雖然這足以證明基于規(guī)模法則比較的有用性,但對(duì)于更大規(guī)模的訓(xùn)練預(yù)測(cè)需要更大的數(shù)據(jù)集。這些數(shù)據(jù)集也是訓(xùn)練預(yù)測(cè)具有強(qiáng)大能力的更大規(guī)模模型所必需的,因?yàn)樵谳^小數(shù)據(jù)集上的過(guò)多重復(fù)可能會(huì)導(dǎo)致性能下降。

研究團(tuán)隊(duì)強(qiáng)調(diào),雖然他們展示了通過(guò)規(guī)模法則推導(dǎo)可以進(jìn)行穩(wěn)健且可復(fù)現(xiàn)的比較,但這種方法關(guān)鍵依賴于整個(gè)流程的完全開(kāi)放性——包括數(shù)據(jù)集構(gòu)成、訓(xùn)練本身和下游評(píng)估。他們希望這項(xiàng)工作能鼓勵(lì)創(chuàng)建更多開(kāi)放成果,特別是開(kāi)放數(shù)據(jù)集,因?yàn)檫@些仍然很稀缺,以促進(jìn)協(xié)作和可復(fù)現(xiàn)地向更強(qiáng)大、可擴(kuò)展的開(kāi)源基礎(chǔ)模型邁進(jìn),這些進(jìn)步可以通過(guò)獨(dú)立驗(yàn)證和系統(tǒng)比較來(lái)指導(dǎo)。

最終,這項(xiàng)研究不僅為人工智能研究社區(qū)提供了一種更科學(xué)、更透明的模型評(píng)估方法,也為普通用戶選擇和使用這些模型提供了更可靠的參考依據(jù)。就像我們?cè)谶x擇產(chǎn)品時(shí)不應(yīng)僅看一個(gè)評(píng)測(cè)分?jǐn)?shù),而應(yīng)了解產(chǎn)品在各種使用場(chǎng)景和強(qiáng)度下的整體表現(xiàn)曲線一樣,人工智能模型的評(píng)估也應(yīng)當(dāng)更全面、更系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-