這項(xiàng)令人矚目的研究來自微軟研究院,由馬書明、王弘宇、黃少韓、張星星、胡穎、宋婷、夏巖和魏福如等研究者共同完成。論文發(fā)表于2025年4月,詳細(xì)介紹了他們開發(fā)的BitNet b1.58 2B4T模型。有興趣深入了解的讀者可以通過arXiv:2504.12285v2訪問完整論文,或在微軟官網(wǎng)https://aka.ms/GeneralAI獲取更多信息。
當(dāng)我們談?wù)撊斯ぶ悄苣P蜁r,通常面臨一個讓人頭疼的問題:這些模型就像貪婪的巨獸,需要消耗大量的計(jì)算資源和內(nèi)存。一個普通的大語言模型可能需要幾十GB的內(nèi)存才能運(yùn)行,這就像要求每個人都擁有一臺超級計(jì)算機(jī)才能使用AI一樣不現(xiàn)實(shí)。但微軟研究團(tuán)隊(duì)剛剛打破了這個困局,他們開發(fā)出了一種革命性的AI模型,能夠?qū)⒃拘枰獛资瓽B內(nèi)存的大模型壓縮到僅需0.4GB內(nèi)存,同時保持幾乎相同的性能水平。
這就好比原本需要一整個倉庫存放的貨物,現(xiàn)在只需要一個小房間就能裝下,而且功能完全不打折扣。更令人興奮的是,這種技術(shù)不僅大幅降低了內(nèi)存需求,還顯著減少了能耗和推理延遲,讓AI模型能夠在普通的筆記本電腦甚至手機(jī)上流暢運(yùn)行。
這項(xiàng)研究的核心突破在于他們開發(fā)的"1位大語言模型"技術(shù)。傳統(tǒng)的AI模型就像精密的瑞士手表,每個零件都需要用最高精度的材料制作。而微軟團(tuán)隊(duì)卻發(fā)現(xiàn)了一個驚人的秘密:實(shí)際上我們可以用更簡單的材料制作出同樣精準(zhǔn)的手表。他們將模型參數(shù)從傳統(tǒng)的16位精度壓縮到僅僅1.58位,這聽起來不可思議,但效果卻出人意料地好。
**一、技術(shù)原理:從精密手表到智能算盤**
要理解這項(xiàng)技術(shù)的革命性,我們需要先了解傳統(tǒng)AI模型是如何工作的。傳統(tǒng)的大語言模型就像一個超級復(fù)雜的計(jì)算器,每個數(shù)字都需要用很高的精度來表示。比如,一個普通的數(shù)字可能需要16位來存儲,這就像用16位數(shù)碼來記錄每個重量一樣精確。
但微軟團(tuán)隊(duì)發(fā)現(xiàn)了一個重要現(xiàn)象:實(shí)際上,我們不需要這么高的精度。他們開發(fā)的BitNet b1.58模型將這些精確的數(shù)字簡化為只有三種可能的值:-1、0、+1。這就像把復(fù)雜的十進(jìn)制計(jì)算簡化為一個智能算盤,只需要三種珠子位置就能完成所有計(jì)算。
這種簡化并非隨意為之,而是經(jīng)過精心設(shè)計(jì)的。研究團(tuán)隊(duì)采用了一種叫做"絕對均值量化"的技術(shù),將原本復(fù)雜的權(quán)重參數(shù)映射到這三個簡單的值上。同時,為了確保計(jì)算精度,他們對激活值采用了8位整數(shù)量化,這就像在使用簡單算盤的同時,保持計(jì)算過程中的一定精度。
這種設(shè)計(jì)的巧妙之處在于,雖然每個單獨(dú)的計(jì)算變得簡單了,但整個模型的表達(dá)能力并沒有顯著下降。這就像用簡單的黑白像素也能組成清晰的圖片一樣,關(guān)鍵在于如何合理地組織和安排這些簡單的元素。
模型的架構(gòu)基于標(biāo)準(zhǔn)的Transformer結(jié)構(gòu),但進(jìn)行了針對1位量化的特殊優(yōu)化。他們用自定義的BitLinear層替換了傳統(tǒng)的全精度線性層,這些層專門設(shè)計(jì)用于處理1.58位的權(quán)重和8位的激活值。此外,他們還采用了平方ReLU激活函數(shù)而不是常見的SwiGLU,這樣做能夠提高模型的稀疏性,進(jìn)一步優(yōu)化計(jì)算效率。
為了保持模型的位置理解能力,研究團(tuán)隊(duì)采用了旋轉(zhuǎn)位置嵌入技術(shù),這是目前高性能大語言模型的標(biāo)準(zhǔn)配置。同時,他們移除了所有的偏置項(xiàng),這不僅減少了參數(shù)數(shù)量,還簡化了量化過程。
**二、訓(xùn)練過程:從零開始的智能鑄造**
訓(xùn)練這樣一個特殊的模型并不是簡單地將現(xiàn)有模型進(jìn)行壓縮,而是需要從頭開始進(jìn)行專門的訓(xùn)練。這個過程就像培養(yǎng)一個天生就習(xí)慣用簡單工具的工匠,而不是讓已經(jīng)習(xí)慣復(fù)雜工具的大師改變習(xí)慣。
整個訓(xùn)練過程分為三個階段,每個階段都有其特定的目標(biāo)和方法。第一個階段是大規(guī)模預(yù)訓(xùn)練,這就像為這個AI學(xué)生提供最基礎(chǔ)的"通識教育"。研究團(tuán)隊(duì)使用了4萬億個文本令牌來訓(xùn)練模型,這些數(shù)據(jù)包括了網(wǎng)絡(luò)爬取的文本、教育網(wǎng)頁內(nèi)容,以及專門為提高數(shù)學(xué)推理能力而合成的數(shù)學(xué)數(shù)據(jù)。
預(yù)訓(xùn)練階段采用了一種獨(dú)特的兩階段學(xué)習(xí)率調(diào)度策略。第一階段使用相對較高的學(xué)習(xí)率,這得益于1位模型比傳統(tǒng)全精度模型更穩(wěn)定的訓(xùn)練特性。當(dāng)訓(xùn)練進(jìn)行到大約一半時,學(xué)習(xí)率會突然降低,進(jìn)入所謂的"冷卻"階段。在這個階段,模型會在更高質(zhì)量的精選數(shù)據(jù)上進(jìn)行細(xì)化訓(xùn)練,就像一件藝術(shù)品在最后階段需要精細(xì)雕琢一樣。
與學(xué)習(xí)率調(diào)整相配合的是權(quán)重衰減策略的變化。在第一階段,權(quán)重衰減遵循余弦調(diào)度,峰值達(dá)到0.1,這有助于防止模型在高學(xué)習(xí)率階段過擬合。而在第二階段,權(quán)重衰減被設(shè)置為零,允許模型參數(shù)在較低學(xué)習(xí)率和精選數(shù)據(jù)的指導(dǎo)下達(dá)到更精細(xì)的優(yōu)化狀態(tài)。
第二個訓(xùn)練階段是監(jiān)督微調(diào),這就像為學(xué)生提供專門的"職業(yè)培訓(xùn)"。研究團(tuán)隊(duì)使用了多種公開的指令跟隨數(shù)據(jù)集,包括WildChat、LMSYS-Chat1M、WizardLM Evol-Instruct和SlimOrca等。為了增強(qiáng)特定能力,他們還補(bǔ)充了使用GLAN和MathScale方法生成的合成數(shù)據(jù)集。
在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的現(xiàn)象。與傳統(tǒng)的全精度模型不同,1位模型在使用損失求和而不是損失平均時表現(xiàn)更好。同時,1位模型需要相對更大的學(xué)習(xí)率和更多的訓(xùn)練輪數(shù)才能達(dá)到最佳收斂效果,這就像不同類型的學(xué)生需要不同的教學(xué)方法一樣。
第三個階段是直接偏好優(yōu)化,這相當(dāng)于教導(dǎo)模型如何更好地理解和滿足人類的期望。研究團(tuán)隊(duì)使用了UltraFeedback和MagPie等偏好數(shù)據(jù)集,通過直接偏好優(yōu)化算法來調(diào)整模型的行為。這個階段進(jìn)行了2個訓(xùn)練輪次,學(xué)習(xí)率設(shè)置為2×10^-7,DPO的beta參數(shù)設(shè)置為0.1。為了提高訓(xùn)練效率,他們還集成了Liger Kernel庫的優(yōu)化內(nèi)核。
**三、性能表現(xiàn):小身材大能量的驗(yàn)證**
當(dāng)我們評估這個模型的表現(xiàn)時,結(jié)果可以說是令人驚喜的。BitNet b1.58 2B4T在各種標(biāo)準(zhǔn)測試中都表現(xiàn)出了與同等規(guī)模的全精度模型相當(dāng)?shù)哪芰?,同時在資源消耗方面卻有著巨大的優(yōu)勢。
在資源效率方面,這個模型展現(xiàn)出了驚人的優(yōu)勢。它的非嵌入層內(nèi)存占用僅為0.4GB,而同等規(guī)模的全精度模型通常需要2-5GB的內(nèi)存。這種差異就像把一輛重型卡車變成了一輛輕便的電動車,不僅更容易操控,還大大降低了使用成本。
在能耗方面,BitNet b1.58 2B4T的估計(jì)能耗僅為0.028焦耳,遠(yuǎn)低于其他模型的0.186-0.649焦耳。這種能效提升對于需要長時間運(yùn)行AI應(yīng)用的場景來說意義重大,就像從耗油的傳統(tǒng)汽車換成了高效的混合動力車。
在推理延遲方面,該模型在CPU上的每個令牌生成時間僅為29毫秒,這比大多數(shù)同等規(guī)模的模型都要快。這意味著用戶在與AI對話時會感受到更流暢的響應(yīng)速度,就像從撥號上網(wǎng)升級到光纖寬帶一樣。
在具體的能力測試中,BitNet b1.58 2B4T在多個基準(zhǔn)測試中都表現(xiàn)出色。在ARC-Challenge推理測試中,它獲得了49.91分,超過了所有對比模型。在數(shù)學(xué)能力測試GSM8K中,它達(dá)到了58.38分,也是所有模型中的最高分。在編程能力測試HumanEval+中,雖然不是最高分,但也達(dá)到了38.40分,屬于中上游水平。
特別值得注意的是,在多輪對話能力測試MT-bench中,BitNet b1.58 2B4T獲得了5.85分,這表明它在理解對話上下文和生成連貫回應(yīng)方面具有良好的能力。在布爾問答測試BoolQ中,它達(dá)到了80.18分,顯示出強(qiáng)大的閱讀理解能力。
研究團(tuán)隊(duì)還將BitNet b1.58 2B4T與經(jīng)過后訓(xùn)練量化的模型進(jìn)行了比較。結(jié)果顯示,雖然標(biāo)準(zhǔn)的INT4量化技術(shù)能夠減少全精度模型的內(nèi)存占用,但BitNet b1.58 2B4T仍然實(shí)現(xiàn)了更低的內(nèi)存需求。更重要的是,傳統(tǒng)的后訓(xùn)練量化技術(shù)通常會導(dǎo)致性能下降,而BitNet b1.58 2B4T在獲得更好資源效率的同時,還保持了比量化模型更強(qiáng)的整體性能。
與其他1位模型的比較更加突出了BitNet b1.58 2B4T的優(yōu)勢。在與原生訓(xùn)練的1位模型和經(jīng)過后訓(xùn)練量化到1.58位的大型模型比較中,BitNet b1.58 2B4T在幾乎所有基準(zhǔn)測試中都取得了最高分。這證明了原生1位訓(xùn)練方法的有效性,也驗(yàn)證了研究團(tuán)隊(duì)技術(shù)路線的正確性。
**四、技術(shù)實(shí)現(xiàn):讓普通人也能用上超級AI**
為了讓這項(xiàng)技術(shù)真正發(fā)揮作用,研究團(tuán)隊(duì)不僅開發(fā)了模型本身,還專門創(chuàng)建了高效的推理實(shí)現(xiàn)方案。這就像不僅發(fā)明了一種新型汽車,還建設(shè)了配套的道路和加油站網(wǎng)絡(luò)。
在GPU推理方面,現(xiàn)有的GPU架構(gòu)和軟件庫主要針對FP16、BF16和INT8/INT4等標(biāo)準(zhǔn)數(shù)據(jù)類型進(jìn)行了優(yōu)化,對于BitNet b1.58 2B4T所需的W1.58A8混合精度低位格式缺乏原生支持。為了解決這個問題,研究團(tuán)隊(duì)開發(fā)了專用的CUDA內(nèi)核。
這個自定義CUDA內(nèi)核采用了巧妙的"打包-存儲-加載-解包-計(jì)算"策略。由于三元權(quán)重?zé)o法用標(biāo)準(zhǔn)數(shù)據(jù)類型高效存儲,內(nèi)核將四個三元值編碼到一個8位整數(shù)中進(jìn)行存儲。在計(jì)算時,CUDA內(nèi)核將這些打包的權(quán)重從高帶寬內(nèi)存加載到GPU的共享內(nèi)存中,然后解包回-1、0、+1的表示形式,再與8位激活值進(jìn)行矩陣乘法運(yùn)算。這種方法最大化了內(nèi)存帶寬利用率,同時利用了定制的計(jì)算指令。
雖然這個定制內(nèi)核相比原始實(shí)現(xiàn)顯著提高了性能,但研究團(tuán)隊(duì)也指出,當(dāng)前的商用GPU架構(gòu)并非專為1位模型優(yōu)化設(shè)計(jì)。他們相信,未來可能出現(xiàn)專門針對低位運(yùn)算的硬件創(chuàng)新,將能夠充分釋放像BitNet b1.58這樣的模型的性能和能效潛力。
在CPU推理方面,為了確保廣泛的可訪問性并支持在缺乏強(qiáng)大GPU的設(shè)備上部署,研究團(tuán)隊(duì)開發(fā)了bitnet.cpp。這個C++庫作為1位大語言模型CPU推理的官方參考實(shí)現(xiàn),包括BitNet b1.58在內(nèi)。
bitnet.cpp提供了針對標(biāo)準(zhǔn)CPU架構(gòu)優(yōu)化的內(nèi)核,專門設(shè)計(jì)用于高效執(zhí)行模型的特定量化方案。這些內(nèi)核避免了通用量化庫的開銷或復(fù)雜的低級位操作,以與BitNet b1.58訓(xùn)練方法一致的方式處理權(quán)重元素,確保數(shù)值精度。
這種方法實(shí)現(xiàn)了1.58位模型在CPU上的快速準(zhǔn)確推理。該庫不僅提供了高性能的推理能力,還確保了相對于訓(xùn)練過程的無損推理,保證了模型輸出的一致性和可靠性。
研究團(tuán)隊(duì)將所有這些實(shí)現(xiàn)都開源發(fā)布,代碼可以在https://aka.ms/bitnet獲取。這種開放態(tài)度確保了技術(shù)能夠被廣泛采用和進(jìn)一步改進(jìn),就像開源軟件推動整個行業(yè)發(fā)展一樣。
**五、深遠(yuǎn)影響:AI民主化的新起點(diǎn)**
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的突破,它實(shí)際上為AI技術(shù)的民主化開辟了全新的道路。過去,運(yùn)行大型AI模型需要昂貴的硬件和大量的電力消耗,這就像只有富人才能擁有汽車一樣,形成了明顯的技術(shù)鴻溝。
BitNet b1.58 2B4T的出現(xiàn)改變了這種局面。現(xiàn)在,一臺普通的筆記本電腦就能運(yùn)行原本需要專業(yè)服務(wù)器才能處理的AI模型。這種變化的影響是多方面的:對于發(fā)展中國家和資源有限的地區(qū)來說,這意味著他們也能享受到先進(jìn)AI技術(shù)帶來的便利;對于個人開發(fā)者來說,這大大降低了AI應(yīng)用開發(fā)的門檻;對于企業(yè)來說,這減少了部署AI服務(wù)的成本和復(fù)雜性。
在環(huán)境影響方面,這項(xiàng)技術(shù)也具有重要意義。隨著AI應(yīng)用的普及,數(shù)據(jù)中心的能耗已經(jīng)成為一個不容忽視的環(huán)境問題。BitNet b1.58 2B4T大幅降低的能耗需求意味著相同的計(jì)算資源可以服務(wù)更多的用戶,或者達(dá)到相同的服務(wù)水平時消耗更少的能源。這就像從燃油車轉(zhuǎn)向電動車一樣,是技術(shù)發(fā)展與環(huán)境保護(hù)相結(jié)合的典型例子。
對于邊緣計(jì)算和物聯(lián)網(wǎng)應(yīng)用來說,這項(xiàng)技術(shù)開啟了新的可能性。原本無法在移動設(shè)備或嵌入式系統(tǒng)上運(yùn)行的AI能力,現(xiàn)在可以直接部署到這些設(shè)備上。這意味著我們可能很快就會看到真正智能的手機(jī)助手、能夠離線工作的翻譯設(shè)備,或者具備高級AI功能的智能家居產(chǎn)品。
在隱私保護(hù)方面,這項(xiàng)技術(shù)也提供了新的選擇。當(dāng)AI模型可以在本地設(shè)備上高效運(yùn)行時,用戶的數(shù)據(jù)就不需要上傳到云端服務(wù)器進(jìn)行處理。這就像從公共圖書館借書變成了在家里擁有私人圖書館一樣,用戶對自己的數(shù)據(jù)有了更好的控制權(quán)。
**六、未來展望:更大的想象空間**
雖然BitNet b1.58 2B4T已經(jīng)取得了令人矚目的成果,但研究團(tuán)隊(duì)并沒有滿足于現(xiàn)狀。他們明確指出了幾個值得期待的發(fā)展方向,每一個都可能帶來新的突破。
在模型規(guī)模擴(kuò)展方面,研究團(tuán)隊(duì)計(jì)劃探索更大規(guī)模的原生1位大語言模型。他們想要了解當(dāng)模型參數(shù)達(dá)到70億、130億甚至更大規(guī)模時,1位訓(xùn)練是否仍能保持與全精度模型的性能對等。這種探索就像測試一種新材料在更大建筑中的表現(xiàn)一樣,需要驗(yàn)證技術(shù)的可擴(kuò)展性。
硬件協(xié)同設(shè)計(jì)是另一個充滿潛力的方向。目前的GPU和CPU雖然可以運(yùn)行1位模型,但它們本質(zhì)上是為傳統(tǒng)精度設(shè)計(jì)的。如果能夠開發(fā)專門針對1位運(yùn)算優(yōu)化的硬件加速器,性能提升可能是革命性的。這就像為電動車設(shè)計(jì)專門的充電基礎(chǔ)設(shè)施一樣,硬件和軟件的完美結(jié)合將釋放出更大的潛力。
在序列長度擴(kuò)展方面,當(dāng)前的模型在處理超長文本時仍有改進(jìn)空間。對于需要理解長篇文檔或進(jìn)行復(fù)雜推理的任務(wù),擴(kuò)展模型的上下文處理能力至關(guān)重要。研究團(tuán)隊(duì)正在探索適合低位模型的高效注意力機(jī)制,以在保持效率的同時支持更長的序列。
多語言能力的增強(qiáng)也是重要的發(fā)展方向。目前的模型主要針對英語進(jìn)行了優(yōu)化,擴(kuò)展到其他語言將使這項(xiàng)技術(shù)惠及更廣泛的全球用戶。這不僅涉及訓(xùn)練數(shù)據(jù)的多樣化,還可能需要對架構(gòu)進(jìn)行調(diào)整以更好地支持不同語言的特點(diǎn)。
多模態(tài)集成代表了另一個激動人心的前沿領(lǐng)域。將1位原理擴(kuò)展到能夠處理和融合文本、圖像等不同模態(tài)信息的架構(gòu)中,可能會催生全新的應(yīng)用場景。這就像從單一樂器發(fā)展到交響樂團(tuán)一樣,不同模態(tài)的信息融合將創(chuàng)造出更豐富的AI體驗(yàn)。
理論理解的深化也是一個重要方向。雖然實(shí)驗(yàn)結(jié)果證明了1位訓(xùn)練的有效性,但對于為什么這種極端量化仍能保持良好性能的理論機(jī)制,科學(xué)界還需要更深入的研究。理解這些機(jī)制將有助于進(jìn)一步優(yōu)化算法和開發(fā)新的量化策略。
說到底,BitNet b1.58 2B4T代表的不僅僅是一項(xiàng)技術(shù)突破,更是AI發(fā)展理念的重要轉(zhuǎn)變。它證明了在追求性能的同時,我們完全可以兼顧效率和可持續(xù)性。這種平衡對于AI技術(shù)的長遠(yuǎn)發(fā)展來說至關(guān)重要,就像可持續(xù)發(fā)展對于人類社會的重要性一樣。
這項(xiàng)研究為我們展示了一種可能性:未來的AI不一定要消耗大量資源才能表現(xiàn)出色,相反,通過巧妙的設(shè)計(jì)和創(chuàng)新的方法,我們可以創(chuàng)造出既強(qiáng)大又高效的AI系統(tǒng)。這種理念的轉(zhuǎn)變可能會影響整個AI研究領(lǐng)域,推動更多研究者去探索效率與性能并重的解決方案。
對于普通用戶來說,這意味著AI技術(shù)將變得更加親民和普及。當(dāng)每個人都能在自己的設(shè)備上運(yùn)行強(qiáng)大的AI模型時,我們可能會看到前所未有的創(chuàng)新應(yīng)用和服務(wù)。這就像互聯(lián)網(wǎng)的普及改變了信息傳播方式一樣,高效AI模型的普及也可能帶來類似的變革性影響。
研究團(tuán)隊(duì)通過開源發(fā)布模型權(quán)重和推理代碼,為整個社區(qū)提供了寶貴的資源。這種開放的態(tài)度不僅加速了技術(shù)的傳播和改進(jìn),也體現(xiàn)了科學(xué)研究應(yīng)有的合作精神。有興趣的讀者可以通過Hugging Face平臺獲取模型權(quán)重,或者訪問https://aka.ms/bitnet獲取完整的實(shí)現(xiàn)代碼,親自體驗(yàn)這項(xiàng)革命性技術(shù)的魅力。
Q&A
Q1:BitNet b1.58 2B4T是什么?它的主要優(yōu)勢在哪里? A:BitNet b1.58 2B4T是微軟開發(fā)的一種革命性AI模型,最大特點(diǎn)是將傳統(tǒng)需要幾十GB內(nèi)存的大語言模型壓縮到只需0.4GB內(nèi)存,同時保持相當(dāng)?shù)男阅芩?。它的主要?yōu)勢包括極低的內(nèi)存占用、顯著降低的能耗(僅為傳統(tǒng)模型的1/10到1/20)、更快的推理速度,以及能在普通筆記本電腦上運(yùn)行。
Q2:1.58位量化技術(shù)會不會影響AI模型的智能水平? A:根據(jù)測試結(jié)果,1.58位量化技術(shù)并不會顯著影響模型的智能水平。BitNet b1.58 2B4T在多個標(biāo)準(zhǔn)測試中的表現(xiàn)與同等規(guī)模的全精度模型相當(dāng),在某些測試中甚至表現(xiàn)更好。這證明了通過巧妙的技術(shù)設(shè)計(jì),可以在大幅降低資源消耗的同時保持AI的能力水平。
Q3:普通人現(xiàn)在能用上這種技術(shù)嗎?使用門檻高不高? A:是的,普通人現(xiàn)在就能使用這種技術(shù)。微軟已經(jīng)開源了模型權(quán)重和實(shí)現(xiàn)代碼,用戶可以通過Hugging Face平臺下載模型,或使用bitnet.cpp在普通CPU上運(yùn)行。由于內(nèi)存需求極低,即使是配置一般的筆記本電腦也能順暢運(yùn)行,大大降低了使用AI技術(shù)的門檻。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。