這項(xiàng)由索邦大學(xué)的Mustafa Shukor與蘋果公司的Louis Bethune、Dan Busbridge、David Grangier、Enrico Fini、Alaaeldin El-Nouby、Pierre Ablin共同完成的研究發(fā)表于2025年7月,論文標(biāo)題為"Scaling Laws for Optimal Data Mixtures"。有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2507.09404v1訪問完整論文。
訓(xùn)練人工智能模型就像調(diào)制一杯完美的雞尾酒。調(diào)酒師知道,威士忌、檸檬汁、糖漿的比例稍有不同,整杯酒的味道就會(huì)截然不同。同樣,AI模型訓(xùn)練時(shí),不同類型數(shù)據(jù)的混合比例也會(huì)決定模型的最終表現(xiàn)。過去,AI研究者們就像沒有配方的調(diào)酒師,只能憑經(jīng)驗(yàn)反復(fù)嘗試,耗費(fèi)大量時(shí)間和資源。這次研究終于為這個(gè)過程提供了科學(xué)的"配方公式"。
這項(xiàng)研究的核心貢獻(xiàn)在于建立了一套數(shù)學(xué)公式,能夠精確預(yù)測(cè)在給定模型規(guī)模和訓(xùn)練數(shù)據(jù)量的情況下,不同數(shù)據(jù)混合比例對(duì)模型性能的影響。研究團(tuán)隊(duì)驗(yàn)證了這套公式在三種不同類型的AI模型上都能準(zhǔn)確工作:處理純文本的大語言模型、同時(shí)處理圖像和文本的多模態(tài)模型,以及專門處理視覺任務(wù)的大型視覺模型。這意味著,未來的AI開發(fā)者可以通過小規(guī)模實(shí)驗(yàn)確定最佳數(shù)據(jù)配方,然后直接用于大規(guī)模模型訓(xùn)練,避免了大量的試錯(cuò)成本。
一、數(shù)據(jù)混合的重要性:為什么配方如此關(guān)鍵
當(dāng)我們思考現(xiàn)代AI模型的訓(xùn)練過程時(shí),可以把它比作培養(yǎng)一個(gè)博學(xué)多才的學(xué)者。這個(gè)學(xué)者需要閱讀各種不同類型的書籍:科學(xué)論文、文學(xué)作品、歷史記錄、代碼教程等等。每種書籍的閱讀比例都會(huì)影響這個(gè)學(xué)者最終的知識(shí)結(jié)構(gòu)和能力表現(xiàn)。
傳統(tǒng)的AI訓(xùn)練方法就像讓這個(gè)學(xué)者隨機(jī)閱讀,或者按照現(xiàn)有書籍的數(shù)量比例來分配閱讀時(shí)間。研究團(tuán)隊(duì)發(fā)現(xiàn),這種方法往往并不能獲得最佳效果。真正的挑戰(zhàn)在于:對(duì)于不同的目標(biāo)任務(wù),應(yīng)該如何精確調(diào)配各種數(shù)據(jù)類型的比例?
考慮一個(gè)具體例子:如果我們要訓(xùn)練一個(gè)既能編程又能寫文章的AI助手,那么代碼數(shù)據(jù)和文本數(shù)據(jù)的比例應(yīng)該是多少?是50%對(duì)50%,還是70%對(duì)30%?這個(gè)比例在小模型和大模型之間是否相同?當(dāng)訓(xùn)練數(shù)據(jù)總量增加時(shí),這個(gè)比例是否需要調(diào)整?
研究團(tuán)隊(duì)指出,這些問題的答案并不直觀。他們發(fā)現(xiàn),最優(yōu)的數(shù)據(jù)混合比例不僅取決于目標(biāo)任務(wù),還與模型的規(guī)模、訓(xùn)練數(shù)據(jù)的總量密切相關(guān)。這就像調(diào)制雞尾酒時(shí),不同容量的杯子需要不同的配方比例,而且隨著客人口味的不同,配方也需要相應(yīng)調(diào)整。
更令人驚訝的是,針對(duì)某個(gè)特定目標(biāo)任務(wù)的最優(yōu)訓(xùn)練數(shù)據(jù)配方,通常與該任務(wù)本身數(shù)據(jù)的比例并不一致。比如,要讓AI在數(shù)學(xué)任務(wù)上表現(xiàn)最佳,最優(yōu)的訓(xùn)練配方可能不是純數(shù)學(xué)數(shù)據(jù),而是數(shù)學(xué)數(shù)據(jù)與其他類型數(shù)據(jù)的特定混合。這種現(xiàn)象被研究團(tuán)隊(duì)稱為"訓(xùn)練-目標(biāo)不匹配"現(xiàn)象。
二、建立科學(xué)的配方公式:從經(jīng)驗(yàn)到理論
為了解決數(shù)據(jù)混合的難題,研究團(tuán)隊(duì)建立了一套數(shù)學(xué)框架,就像為調(diào)酒師提供了精確的配方計(jì)算器。這個(gè)框架的核心思想是:模型在特定任務(wù)上的性能可以表示為模型規(guī)模、訓(xùn)練數(shù)據(jù)量和數(shù)據(jù)混合比例的函數(shù)。
研究團(tuán)隊(duì)提出了兩種主要的公式類型。第一種被稱為"加性定律",它假設(shè)數(shù)據(jù)混合比例對(duì)模型性能的影響是相對(duì)獨(dú)立的,不受模型規(guī)模和訓(xùn)練數(shù)據(jù)量的影響。用烹飪來類比,這就像認(rèn)為調(diào)料的搭配效果在小鍋和大鍋中是一樣的。
第二種被稱為"聯(lián)合定律",它考慮了數(shù)據(jù)混合比例與模型規(guī)模、訓(xùn)練數(shù)據(jù)量之間的相互作用。這種公式更加復(fù)雜,但也更加現(xiàn)實(shí)。它認(rèn)為在不同的模型規(guī)模下,同樣的數(shù)據(jù)混合比例可能產(chǎn)生不同的效果,就像同樣的調(diào)料配方在不同火候下會(huì)產(chǎn)生不同的味道。
這兩種公式都基于經(jīng)典的"冪律"關(guān)系,這是AI領(lǐng)域一個(gè)重要的數(shù)學(xué)工具。冪律關(guān)系就像自然界中的許多現(xiàn)象一樣,呈現(xiàn)出特定的數(shù)學(xué)規(guī)律。比如,城市的人口分布、語言中詞匯的使用頻率、甚至股市的波動(dòng)都遵循冪律關(guān)系。
為了驗(yàn)證這些公式的準(zhǔn)確性,研究團(tuán)隊(duì)設(shè)計(jì)了大量的實(shí)驗(yàn)。他們訓(xùn)練了數(shù)百個(gè)不同規(guī)模的模型,使用了不同的數(shù)據(jù)混合比例,然后比較實(shí)際性能與公式預(yù)測(cè)的差異。結(jié)果顯示,他們的公式能夠以非常高的精度預(yù)測(cè)模型性能,平均誤差通常在1-5%之間。
三、三大驗(yàn)證實(shí)驗(yàn):從理論到實(shí)踐
研究團(tuán)隊(duì)在三個(gè)不同的AI領(lǐng)域進(jìn)行了廣泛的驗(yàn)證實(shí)驗(yàn),每個(gè)領(lǐng)域都有其獨(dú)特的挑戰(zhàn)和特點(diǎn)。
在大語言模型的實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用了SlimPajama數(shù)據(jù)集,這是一個(gè)包含了7個(gè)不同文本領(lǐng)域的大規(guī)模數(shù)據(jù)集。這些領(lǐng)域包括學(xué)術(shù)論文、書籍、網(wǎng)頁內(nèi)容、編程代碼、常識(shí)知識(shí)、問答內(nèi)容和百科全書條目。研究團(tuán)隊(duì)訓(xùn)練了從1.86億參數(shù)到70億參數(shù)的各種規(guī)模模型,使用了多達(dá)1500億個(gè)訓(xùn)練樣本。
實(shí)驗(yàn)過程就像一個(gè)巨大的烹飪實(shí)驗(yàn)室,研究團(tuán)隊(duì)嘗試了60種不同的"配方"(數(shù)據(jù)混合比例),每種配方都在不同規(guī)模的"鍋?zhàn)?(模型)中進(jìn)行測(cè)試。他們發(fā)現(xiàn),當(dāng)使用小規(guī)模模型確定的最優(yōu)配方來訓(xùn)練大規(guī)模模型時(shí),性能預(yù)測(cè)的準(zhǔn)確度令人驚訝地高。
在多模態(tài)模型的實(shí)驗(yàn)中,情況變得更加復(fù)雜。這類模型需要同時(shí)處理文本、圖像和兩者的組合,就像培養(yǎng)一個(gè)既會(huì)讀書又會(huì)看圖的學(xué)生。研究團(tuán)隊(duì)使用了三種不同類型的數(shù)據(jù):純文本數(shù)據(jù)、圖像-文本配對(duì)數(shù)據(jù),以及包含多個(gè)圖像和文本交替出現(xiàn)的交錯(cuò)數(shù)據(jù)。
這個(gè)實(shí)驗(yàn)的挑戰(zhàn)在于,不同模態(tài)的數(shù)據(jù)之間存在復(fù)雜的相互作用。文本數(shù)據(jù)可能幫助模型理解圖像內(nèi)容,而圖像數(shù)據(jù)也可能增強(qiáng)模型對(duì)文本的理解能力。研究團(tuán)隊(duì)發(fā)現(xiàn),即使在這種復(fù)雜的多模態(tài)環(huán)境中,他們的公式依然能夠準(zhǔn)確預(yù)測(cè)最優(yōu)的數(shù)據(jù)混合比例。
在大型視覺模型的實(shí)驗(yàn)中,研究團(tuán)隊(duì)面臨的是另一種挑戰(zhàn)。這些模型主要處理圖像和相關(guān)的文本描述,但數(shù)據(jù)質(zhì)量存在很大差異。有些是從互聯(lián)網(wǎng)自動(dòng)抓取的噪聲數(shù)據(jù),有些是精心標(biāo)注的高質(zhì)量數(shù)據(jù),還有些是通過AI生成的合成數(shù)據(jù)。
通過這三個(gè)領(lǐng)域的實(shí)驗(yàn),研究團(tuán)隊(duì)證明了他們的公式具有很強(qiáng)的普適性。無論是處理純文本、多模態(tài)內(nèi)容,還是視覺任務(wù),這套公式都能夠準(zhǔn)確預(yù)測(cè)最優(yōu)的數(shù)據(jù)混合比例。
四、從小規(guī)模到大規(guī)模:預(yù)測(cè)的魔力
這項(xiàng)研究最令人印象深刻的發(fā)現(xiàn)之一是,通過小規(guī)模實(shí)驗(yàn)得出的公式可以準(zhǔn)確預(yù)測(cè)大規(guī)模模型的性能。這就像通過觀察一小鍋湯的調(diào)味效果,就能精確預(yù)測(cè)大鍋湯應(yīng)該如何調(diào)味。
研究團(tuán)隊(duì)的實(shí)驗(yàn)顯示,他們可以使用參數(shù)量在10億以下的小模型進(jìn)行實(shí)驗(yàn),然后將得出的公式應(yīng)用到參數(shù)量達(dá)到80億的大模型上,預(yù)測(cè)準(zhǔn)確度依然保持在很高的水平。這種"縮放"能力對(duì)于實(shí)際應(yīng)用意義重大,因?yàn)榇竽P偷挠?xùn)練成本極其昂貴。
以一個(gè)具體例子來說明這種預(yù)測(cè)能力的價(jià)值:假設(shè)一家公司想要訓(xùn)練一個(gè)擁有100億參數(shù)的大型AI模型,按照傳統(tǒng)方法,他們需要嘗試多種不同的數(shù)據(jù)混合比例,每次嘗試都可能花費(fèi)數(shù)百萬美元的計(jì)算成本。而使用這套公式,他們只需要在參數(shù)量為10億的小模型上進(jìn)行少量實(shí)驗(yàn),就能準(zhǔn)確預(yù)測(cè)出大模型的最優(yōu)數(shù)據(jù)配方。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:最優(yōu)的數(shù)據(jù)混合比例會(huì)隨著模型規(guī)模的變化而變化。在小模型中表現(xiàn)最好的配方,在大模型中可能不再是最優(yōu)的。這就像烹飪中的現(xiàn)象:適合小火慢燉的調(diào)料比例,在大火快炒時(shí)可能需要調(diào)整。
聯(lián)合定律比加性定律更能捕捉這種變化。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)模型規(guī)模增大時(shí),某些類型的數(shù)據(jù)變得更加重要,而另一些類型的數(shù)據(jù)的重要性可能相對(duì)下降。這種動(dòng)態(tài)變化的理解對(duì)于設(shè)計(jì)真正高效的AI訓(xùn)練策略至關(guān)重要。
五、尋找最優(yōu)配方:從理論到實(shí)踐指南
有了準(zhǔn)確的預(yù)測(cè)公式,下一步就是尋找最優(yōu)的數(shù)據(jù)混合配方。這個(gè)過程就像解決一個(gè)復(fù)雜的優(yōu)化問題:在所有可能的配方中,找到那個(gè)能讓模型在目標(biāo)任務(wù)上表現(xiàn)最佳的組合。
研究團(tuán)隊(duì)使用了一種稱為"鏡像梯度下降"的數(shù)學(xué)方法來解決這個(gè)優(yōu)化問題。這個(gè)方法的工作原理類似于一個(gè)智能的配方調(diào)整系統(tǒng):它會(huì)根據(jù)當(dāng)前配方的效果,智能地調(diào)整各種數(shù)據(jù)類型的比例,逐步逼近最優(yōu)配方。
在語言模型的實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的結(jié)果:針對(duì)平均性能優(yōu)化的配方與針對(duì)特定任務(wù)優(yōu)化的配方存在顯著差異。他們訓(xùn)練了四個(gè)不同的70億參數(shù)模型,分別使用了四種不同的數(shù)據(jù)配方:傳統(tǒng)的均勻分布、基于數(shù)據(jù)量的自然分布、針對(duì)平均性能優(yōu)化的配方,以及針對(duì)特定高質(zhì)量任務(wù)優(yōu)化的配方。
結(jié)果顯示,使用針對(duì)特定任務(wù)優(yōu)化配方的模型在該任務(wù)上的表現(xiàn)明顯優(yōu)于其他模型。這就像為特定客人的口味專門調(diào)制的雞尾酒,總是比通用配方更受歡迎。更重要的是,這種定制化的配方并沒有顯著犧牲模型在其他任務(wù)上的性能。
在多模態(tài)模型的實(shí)驗(yàn)中,研究團(tuán)隊(duì)觀察到了數(shù)據(jù)混合比例隨著模型規(guī)模變化的有趣模式。他們發(fā)現(xiàn),隨著模型規(guī)模的增大,文本數(shù)據(jù)的重要性相對(duì)增加,而交錯(cuò)多模態(tài)數(shù)據(jù)的重要性相對(duì)下降。這個(gè)發(fā)現(xiàn)對(duì)于設(shè)計(jì)大規(guī)模多模態(tài)系統(tǒng)具有重要的指導(dǎo)意義。
六、深入分析:配方背后的科學(xué)原理
為了更深入地理解數(shù)據(jù)混合的機(jī)制,研究團(tuán)隊(duì)進(jìn)行了一系列細(xì)致的分析實(shí)驗(yàn)。他們發(fā)現(xiàn),只需要相對(duì)較少的實(shí)驗(yàn)就能獲得準(zhǔn)確的配方預(yù)測(cè)。在大多數(shù)情況下,使用10-20個(gè)不同的數(shù)據(jù)混合比例進(jìn)行實(shí)驗(yàn),就足以擬合出可靠的預(yù)測(cè)公式。
這個(gè)發(fā)現(xiàn)具有重要的實(shí)踐意義。它意味著研究人員不需要進(jìn)行大量的試錯(cuò)實(shí)驗(yàn),就能找到最優(yōu)的數(shù)據(jù)配方。這大大降低了AI模型開發(fā)的成本和時(shí)間。
研究團(tuán)隊(duì)還探索了不同學(xué)習(xí)率調(diào)度策略對(duì)結(jié)果的影響。他們發(fā)現(xiàn),無論是使用恒定學(xué)習(xí)率還是余弦學(xué)習(xí)率調(diào)度,他們的公式都能保持很高的預(yù)測(cè)準(zhǔn)確度。這進(jìn)一步證明了公式的魯棒性和普適性。
另一個(gè)重要發(fā)現(xiàn)是關(guān)于數(shù)據(jù)混合比例的"固定點(diǎn)"現(xiàn)象。研究團(tuán)隊(duì)發(fā)現(xiàn),在大多數(shù)情況下,最優(yōu)的訓(xùn)練數(shù)據(jù)配方與目標(biāo)任務(wù)的數(shù)據(jù)分布并不一致。這意味著,如果你想讓AI在某個(gè)特定任務(wù)上表現(xiàn)最佳,最好的策略不是只用該任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,而是使用一個(gè)經(jīng)過優(yōu)化的混合配方。
這個(gè)現(xiàn)象可以用一個(gè)簡(jiǎn)單的類比來理解:如果你想成為一個(gè)優(yōu)秀的網(wǎng)球運(yùn)動(dòng)員,最好的訓(xùn)練方法不是只練習(xí)網(wǎng)球,而是結(jié)合其他運(yùn)動(dòng)項(xiàng)目的訓(xùn)練,比如跑步、舉重、游泳等。這些看似無關(guān)的訓(xùn)練能夠提高你的整體身體素質(zhì),從而在網(wǎng)球比賽中發(fā)揮更好的表現(xiàn)。
七、理論基礎(chǔ):從信息論角度的解釋
研究團(tuán)隊(duì)還從信息論的角度為他們的發(fā)現(xiàn)提供了理論解釋。他們將模型的損失函數(shù)分解為兩個(gè)部分:一個(gè)是目標(biāo)數(shù)據(jù)分布的內(nèi)在復(fù)雜性,另一個(gè)是訓(xùn)練數(shù)據(jù)分布與目標(biāo)數(shù)據(jù)分布之間的差異。
這種分解就像分析一個(gè)翻譯系統(tǒng)的準(zhǔn)確性:一部分取決于源語言本身的復(fù)雜性,另一部分取決于翻譯系統(tǒng)對(duì)源語言的理解程度。通過這種分析,研究團(tuán)隊(duì)能夠更好地理解為什么某些數(shù)據(jù)混合比例比其他比例更有效。
他們發(fā)現(xiàn),最優(yōu)的數(shù)據(jù)混合比例實(shí)際上是在平衡兩個(gè)相互競(jìng)爭(zhēng)的目標(biāo):一方面要最大化模型對(duì)目標(biāo)任務(wù)的適應(yīng)性,另一方面要保持模型的泛化能力。這種平衡就像調(diào)節(jié)相機(jī)的焦距:過度聚焦會(huì)失去背景信息,過度發(fā)散則會(huì)失去主體清晰度。
這個(gè)理論框架還解釋了為什么在不同的模型規(guī)模下,最優(yōu)的數(shù)據(jù)混合比例會(huì)發(fā)生變化。隨著模型規(guī)模的增大,模型的表達(dá)能力增強(qiáng),能夠從更復(fù)雜的數(shù)據(jù)混合中提取有用信息。這就像一個(gè)經(jīng)驗(yàn)豐富的廚師能夠處理更復(fù)雜的食材組合,而新手廚師則需要更簡(jiǎn)單的配方。
八、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到產(chǎn)業(yè)界
這項(xiàng)研究的實(shí)際應(yīng)用價(jià)值已經(jīng)在多個(gè)場(chǎng)景中得到驗(yàn)證。研究團(tuán)隊(duì)展示了如何使用他們的公式來指導(dǎo)實(shí)際的AI模型開發(fā)過程。
在語言模型的應(yīng)用中,他們成功地為一個(gè)70億參數(shù)的模型找到了最優(yōu)的數(shù)據(jù)配方。這個(gè)模型在多個(gè)標(biāo)準(zhǔn)測(cè)試中都表現(xiàn)出色,特別是在需要高質(zhì)量推理的任務(wù)上。更重要的是,整個(gè)優(yōu)化過程只需要傳統(tǒng)試錯(cuò)方法十分之一的計(jì)算成本。
在多模態(tài)模型的應(yīng)用中,研究團(tuán)隊(duì)發(fā)現(xiàn)他們的公式能夠幫助開發(fā)者在文本理解、圖像識(shí)別和多模態(tài)推理之間找到最佳平衡點(diǎn)。這對(duì)于開發(fā)通用的AI助手特別有價(jià)值,因?yàn)檫@類系統(tǒng)需要在多種不同類型的任務(wù)上都表現(xiàn)良好。
研究團(tuán)隊(duì)還探索了他們的方法在持續(xù)學(xué)習(xí)場(chǎng)景中的應(yīng)用。當(dāng)需要為已有的模型添加新的能力時(shí),如何調(diào)整數(shù)據(jù)混合比例以避免"災(zāi)難性遺忘"是一個(gè)重要挑戰(zhàn)。初步實(shí)驗(yàn)顯示,他們的公式能夠?yàn)檫@種場(chǎng)景提供有價(jià)值的指導(dǎo)。
九、未來展望:更廣闊的應(yīng)用前景
這項(xiàng)研究開辟了AI模型訓(xùn)練優(yōu)化的新方向,但研究團(tuán)隊(duì)也指出了當(dāng)前方法的一些局限性和未來的發(fā)展方向。
當(dāng)前的公式主要適用于預(yù)訓(xùn)練階段,對(duì)于微調(diào)和持續(xù)學(xué)習(xí)階段的數(shù)據(jù)混合優(yōu)化還需要進(jìn)一步研究。研究團(tuán)隊(duì)認(rèn)為,將這套方法擴(kuò)展到整個(gè)AI模型的生命周期是一個(gè)重要的研究方向。
另一個(gè)重要的發(fā)展方向是考慮數(shù)據(jù)質(zhì)量的動(dòng)態(tài)變化。當(dāng)前的公式假設(shè)訓(xùn)練過程中數(shù)據(jù)混合比例保持恒定,但在實(shí)際應(yīng)用中,可能需要根據(jù)訓(xùn)練進(jìn)度動(dòng)態(tài)調(diào)整數(shù)據(jù)配方。這就像烹飪過程中需要根據(jù)火候的變化調(diào)整調(diào)料的添加時(shí)機(jī)。
研究團(tuán)隊(duì)還計(jì)劃將他們的方法擴(kuò)展到更多類型的AI模型和更多樣化的數(shù)據(jù)類型。隨著AI技術(shù)的不斷發(fā)展,新的模型架構(gòu)和新的數(shù)據(jù)模態(tài)不斷涌現(xiàn),如何為這些新技術(shù)找到最優(yōu)的數(shù)據(jù)配方將是一個(gè)持續(xù)的挑戰(zhàn)。
此外,研究團(tuán)隊(duì)認(rèn)為,將這種數(shù)據(jù)優(yōu)化方法與其他AI訓(xùn)練技術(shù)(如元學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等)結(jié)合起來,可能會(huì)產(chǎn)生更大的效果。這種跨領(lǐng)域的融合可能會(huì)為AI模型訓(xùn)練帶來革命性的改進(jìn)。
從產(chǎn)業(yè)應(yīng)用的角度來看,這項(xiàng)研究的成果有望顯著降低AI模型開發(fā)的成本和時(shí)間。對(duì)于資源有限的研究團(tuán)隊(duì)和初創(chuàng)公司來說,這種基于科學(xué)公式的數(shù)據(jù)配方優(yōu)化方法可能成為他們與大型科技公司競(jìng)爭(zhēng)的重要工具。
說到底,這項(xiàng)研究就像為AI訓(xùn)練領(lǐng)域提供了一本精確的"烹飪指南"。以前,訓(xùn)練AI模型更像是藝術(shù),需要經(jīng)驗(yàn)、直覺和大量的試錯(cuò)?,F(xiàn)在,它更像是科學(xué),有了可靠的理論基礎(chǔ)和實(shí)用的工具。雖然經(jīng)驗(yàn)和直覺仍然重要,但科學(xué)的方法讓整個(gè)過程變得更加高效和可預(yù)測(cè)。
這個(gè)突破不僅僅是技術(shù)上的進(jìn)步,更是思維方式的轉(zhuǎn)變。它告訴我們,即使在快速發(fā)展的AI領(lǐng)域,系統(tǒng)性的科學(xué)研究仍然能夠產(chǎn)生深遠(yuǎn)的影響。這種從經(jīng)驗(yàn)到理論、從試錯(cuò)到預(yù)測(cè)的轉(zhuǎn)變,可能會(huì)啟發(fā)更多類似的研究,推動(dòng)整個(gè)AI領(lǐng)域向更加成熟的方向發(fā)展。
對(duì)于普通人來說,這項(xiàng)研究的意義在于,未來的AI系統(tǒng)可能會(huì)變得更加高效、更加準(zhǔn)確,同時(shí)開發(fā)成本也會(huì)降低。這意味著更多的創(chuàng)新應(yīng)用會(huì)涌現(xiàn)出來,AI技術(shù)也會(huì)更快地普及到各個(gè)領(lǐng)域。從這個(gè)角度來看,這項(xiàng)看似技術(shù)性的研究,實(shí)際上可能會(huì)影響到每個(gè)人的生活。
有興趣深入了解這項(xiàng)研究的讀者,可以通過論文編號(hào)arXiv:2507.09404v1獲取完整的研究報(bào)告,其中包含了更詳細(xì)的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:這個(gè)數(shù)據(jù)混合公式是否適用于所有類型的AI模型? A:研究團(tuán)隊(duì)在三種不同類型的AI模型上驗(yàn)證了公式的有效性:大語言模型、多模態(tài)模型和視覺模型。雖然顯示出良好的普適性,但對(duì)于其他新興的模型架構(gòu),可能需要進(jìn)一步的驗(yàn)證和調(diào)整。研究團(tuán)隊(duì)也在論文中提到了將方法擴(kuò)展到更多模型類型的計(jì)劃。
Q2:使用這個(gè)公式能節(jié)省多少訓(xùn)練成本? A:根據(jù)研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果,使用這個(gè)公式可以將尋找最優(yōu)數(shù)據(jù)配方的成本降低到傳統(tǒng)試錯(cuò)方法的十分之一。因?yàn)橹恍枰眯∫?guī)模模型進(jìn)行少量實(shí)驗(yàn)就能預(yù)測(cè)大規(guī)模模型的最優(yōu)配方,大大減少了昂貴的大規(guī)模訓(xùn)練實(shí)驗(yàn)次數(shù)。
Q3:普通開發(fā)者如何使用這個(gè)研究成果? A:雖然研究團(tuán)隊(duì)提供了數(shù)學(xué)公式和理論框架,但目前還沒有發(fā)布現(xiàn)成的工具軟件。開發(fā)者需要根據(jù)論文中的方法,結(jié)合自己的具體應(yīng)用場(chǎng)景來實(shí)現(xiàn)相應(yīng)的優(yōu)化流程。不過,這項(xiàng)研究為AI訓(xùn)練社區(qū)提供了明確的方向,預(yù)計(jì)未來會(huì)有更多易用的工具出現(xiàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。