這項由字節(jié)跳動智能創(chuàng)作實驗室UXO團隊的吳少金、黃夢琪等研究人員開發(fā)的創(chuàng)新成果,發(fā)表于2025年8月的arXiv預印本平臺,論文編號為arXiv:2508.18966v1。有興趣深入了解的讀者可以通過該編號查找完整論文,也可以訪問項目主頁https://bytedance.github.io/USO/獲取更多技術細節(jié)。
長期以來,AI圖像生成領域存在一個令人困擾的問題:當我們希望AI既能保持圖片中人物或物體的特征,又能改變整體風格時,現(xiàn)有的方法往往顧此失彼。比如你想讓AI把一張現(xiàn)代人物照片轉換成梵高風格的油畫,要么人物特征完全變了樣,要么風格轉換得不夠徹底。這就像要求一個藝術家既要畫得像原人物,又要用特定的繪畫風格,大多數(shù)AI系統(tǒng)在這種"一心二用"的任務上表現(xiàn)并不理想。
字節(jié)跳動的研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:風格驅動生成和主體驅動生能實際上是一對天然的互補任務。當AI學會準確提取圖片中的人物特征時,它同時也在學習如何忽略風格信息;反過來,當它學會提取藝術風格時,也在學習如何排除人物細節(jié)。這種相互促進的關系就像學習開車時,掌握方向盤控制的同時也在學習如何不被路邊景色分散注意力。
基于這個洞察,研究團隊開發(fā)了名為USO的統(tǒng)一風格-主體優(yōu)化定制模型。這個系統(tǒng)不僅能夠單獨完成風格轉換或主體保持任務,更重要的是能夠同時處理兩種需求,實現(xiàn)真正的"魚和熊掌兼得"。團隊還構建了第一個專門評估風格相似性和主體一致性的綜合基準USO-Bench,為這個領域的發(fā)展提供了重要的評測標準。
一、傳統(tǒng)方法的困境:各自為政的技術路線
在AI圖像生成的世界里,長期存在著兩條平行發(fā)展的技術路線。第一條路線專注于風格轉換,就像培訓專門的臨摹畫家,他們擅長把任何內(nèi)容都畫成特定的藝術風格,比如把現(xiàn)代照片轉換成印象派繪畫或者日本動漫風格。第二條路線則專注于主體保持,就像培訓肖像畫家,他們能夠在不同場景中準確描繪同一個人物或物體的特征。
這種分工看似合理,但實際應用中卻帶來了諸多限制。風格轉換專家雖然能夠完美復制梵高的筆觸和色彩,但往往會把原圖中的人物面容也一并"藝術化",導致人物變得面目全非。主體保持專家雖然能夠在各種場景中保持人物的身份特征,但在風格變換方面卻顯得力不從心,生成的圖像往往保持著寫實風格。
更深層的問題在于,這兩種方法都在進行"單打獨斗"的特征分離工作。風格轉換方法試圖從參考圖像中提取純粹的風格信息,同時排除內(nèi)容細節(jié);主體保持方法則努力提取主體特征,排除風格因素。但由于缺乏相互參照,這種分離往往不夠準確和徹底。
研究團隊發(fā)現(xiàn),這就像兩個人分別學習"什么是蘋果"和"什么不是蘋果",如果他們能夠相互交流和對比,學習效果會比各自摸索要好得多。一個專注于識別蘋果特征的人,其經(jīng)驗恰好能幫助另一個人更好地排除蘋果特征;反之亦然。
傳統(tǒng)方法的另一個局限是在數(shù)據(jù)構建上的各自為政。風格轉換方法通常使用藝術作品和自然照片的配對數(shù)據(jù),主體保持方法則依賴同一主體在不同場景下的圖像對。這種分離的數(shù)據(jù)策略無法充分挖掘兩個任務之間的潛在關聯(lián),也限制了模型的泛化能力。
面對這些挑戰(zhàn),字節(jié)跳動的研究團隊提出了一個根本性的思路轉變:與其讓兩個專家各自為政,不如讓他們在同一個學習框架下相互促進,實現(xiàn)真正的協(xié)同進化。
二、創(chuàng)新思路:化對立為統(tǒng)一的協(xié)同分離范式
研究團隊提出了一個顛覆性的觀點:風格驅動生成和主體驅動生成看似對立,實際上是一對完美的互補任務。這種互補性體現(xiàn)在特征提取的鏡像關系上。當系統(tǒng)學習提取風格特征時,它必須學會忽略主體細節(jié);當系統(tǒng)學習提取主體特征時,它必須學會排除風格信息。這種"一個人的垃圾是另一個人的寶藏"的關系,為兩個任務的協(xié)同學習提供了天然的基礎。
這種協(xié)同分離范式的核心理念可以用一個生動的比喻來理解:想象一個果園里有蘋果樹和橘子樹混種,傳統(tǒng)方法是訓練兩個采摘工人,一個專門識別蘋果,另一個專門識別橘子,他們各自工作,互不干擾。而新的協(xié)同方法則是讓兩個工人協(xié)同工作,當?shù)谝粋€工人指出"這是蘋果"時,第二個工人就學會了"這不是橘子";反之亦然。通過這種相互學習,兩個工人都能更準確地識別自己的目標,同時也更清楚地知道什么不是自己要找的東西。
在技術實現(xiàn)上,這種協(xié)同分離體現(xiàn)為一個創(chuàng)新的交叉任務數(shù)據(jù)建構框架。研究團隊設計了"主體為風格服務"和"風格為主體服務"兩個相互促進的訓練階段。在第一個階段,他們利用最先進的主體驅動模型生成高質量的風格化數(shù)據(jù);在第二個階段,他們在風格獎勵機制的指導下訓練更有效的主體模型。
這個過程就像培養(yǎng)一對互補的舞蹈搭檔。男舞者在學習如何穩(wěn)固地支撐女舞者的同時,也在學習如何不妨礙她的旋轉動作;女舞者在學習優(yōu)美旋轉的同時,也在學習如何配合男舞者的支撐節(jié)奏。通過這種相互配合的訓練,兩個舞者都能達到單獨練習時無法企及的表演水平。
協(xié)同分離范式的另一個重要創(chuàng)新是三元組數(shù)據(jù)的構建。不同于傳統(tǒng)方法使用的成對數(shù)據(jù),USO使用的是風格參考圖像、去風格化主體參考圖像和風格化主體結果圖像構成的三元組。這種三元組結構為模型提供了更豐富的學習信號,使其能夠同時理解"什么是目標風格"、"什么是目標主體"以及"兩者結合后應該是什么樣子"。
更重要的是,這種協(xié)同學習不僅僅是技術層面的創(chuàng)新,它還帶來了應用層面的突破。傳統(tǒng)方法往往只能處理布局保持的風格轉換,即在保持原始構圖的前提下改變風格。而協(xié)同訓練的USO模型能夠實現(xiàn)布局轉換的風格化生成,也就是說,它可以把內(nèi)容圖像中的主體提取出來,重新安排到完全不同的場景中,同時應用參考風格進行渲染。
這種能力的獲得是協(xié)同學習的自然結果。當模型真正學會了精確的內(nèi)容-風格分離時,它就具備了自由重組這些元素的能力,就像一個真正理解了食材特性的廚師,不僅能夠按照食譜烹飪,還能創(chuàng)造性地組合不同食材,制作出全新的美味佳肴。
三、技術架構:三階段漸進式統(tǒng)一框架
USO模型的技術架構采用了一種漸進式的設計哲學,整個系統(tǒng)分為三個相互銜接的訓練階段,每個階段都有明確的學習目標和技術實現(xiàn)策略。
第一階段是風格對齊訓練,這個階段的主要任務是讓AI學會理解和提取圖像中的風格信息。研究團隊發(fā)現(xiàn),風格是一種比主體特征更加抽象和復雜的概念。它不僅包含顏色搭配、筆觸紋理等低層次的視覺特征,還包含構圖方式、光影處理等高層次的語義信息。為了處理這種復雜性,團隊引入了SigLIP語義編碼器替代傳統(tǒng)的VAE圖像編碼器,這就像用一個既懂藝術史又精通技法的專業(yè)評論家來替代只會看顏色和形狀的普通觀眾。
在這個階段,系統(tǒng)還引入了層次化投影器,這個組件的作用類似于一個多層次的翻譯器。它能夠將SigLIP編碼器提取的多尺度視覺特征轉換為與文本標記相容的表示形式,從而讓風格信息能夠自然地融入到原有的文本到圖像生成流程中。這種設計使得風格條件和文本條件能夠在同一個表示空間中協(xié)調(diào)工作,避免了兩種不同模態(tài)信息之間的沖突。
第二階段是內(nèi)容-風格分離訓練,這是整個系統(tǒng)最核心的創(chuàng)新環(huán)節(jié)。在這個階段,系統(tǒng)開始處理包含風格參考、內(nèi)容參考和目標輸出的三元組數(shù)據(jù)。關鍵的技術創(chuàng)新在于采用分離式編碼器設計:風格信息通過第一階段訓練好的SigLIP編碼器處理,而內(nèi)容信息則通過凍結的VAE編碼器處理。這種分離設計就像安排兩個專門的接待員,一個專門負責理解客人的風格偏好,另一個專門負責理解客人的內(nèi)容需求,兩人各司其職但又密切協(xié)作。
分離式編碼器的設計有效避免了內(nèi)容泄漏問題,這是傳統(tǒng)方法經(jīng)常遇到的技術難題。內(nèi)容泄漏是指風格參考圖像中的不相關內(nèi)容細節(jié)意外出現(xiàn)在生成結果中,就像臨摹一幅畫時不小心把畫框也畫了進去。通過明確分工,USO能夠確保每個編碼器只關注自己負責的信息類型,從而實現(xiàn)更精確的特征分離。
第三階段是風格獎勵學習,這是一個創(chuàng)新的優(yōu)化機制,專門用于進一步提升系統(tǒng)的跨任務分離能力。傳統(tǒng)的生成模型訓練主要依賴重建損失,即讓生成圖像盡可能接近目標圖像。但這種訓練方式在處理風格相似性時往往不夠敏感,因為重建損失更關注像素級別的準確性,而風格相似性更多體現(xiàn)在感知層面的一致性。
風格獎勵學習機制引入了專門的風格相似性評估模型作為獎勵信號源。這個機制的工作原理類似于聘請一位藝術鑒定專家作為教練,專門評估生成作品的風格還原度。當系統(tǒng)生成一幅圖像時,獎勵模型會評估其風格與參考圖像的相似程度,并將這個評分作為反饋信號指導模型參數(shù)的調(diào)整。
有趣的是,雖然風格獎勵學習主要針對風格任務設計,但實驗結果顯示它對主體一致性任務也有顯著的提升效果。這種跨任務的性能提升恰好驗證了協(xié)同分離范式的有效性:當系統(tǒng)在風格提取方面變得更加精確時,它在主體特征保持方面也自然地變得更加出色。
整個三階段訓練過程體現(xiàn)了一種漸進式的學習策略,每個階段都在前一階段的基礎上添加新的能力,同時保持已有能力的穩(wěn)定性。這種設計避免了一次性學習多個復雜任務可能導致的訓練不穩(wěn)定問題,確保了模型能夠穩(wěn)健地掌握每一項核心能力。
四、數(shù)據(jù)建構:創(chuàng)新的交叉任務三元組生成策略
USO模型的成功很大程度上得益于其創(chuàng)新的數(shù)據(jù)建構策略。不同于傳統(tǒng)方法依賴現(xiàn)有數(shù)據(jù)集或簡單的數(shù)據(jù)增強技術,研究團隊設計了一套完整的交叉任務三元組生成框架,這套框架能夠系統(tǒng)性地生成高質量的訓練數(shù)據(jù),為協(xié)同學習提供充足的"營養(yǎng)"。
數(shù)據(jù)建構的核心思想是利用已有的專業(yè)模型來生成互補的訓練樣本。研究團隊首先收集了20萬對風格化圖像,這些圖像來源于公開授權的數(shù)據(jù)集以及先進文本到圖像模型的合成樣本。接下來,他們在領先的定制化框架UNO基礎上訓練了兩個專門的"專家模型":風格化專家和去風格化專家。
風格化專家的作用就像一個萬能的藝術臨摹師,它能夠接收任何風格參考圖像,然后生成相應風格的新內(nèi)容。而去風格化專家則像一個還原大師,它能夠將風格化的圖像轉換回寫實風格,同時保持主體特征不變。這兩個專家模型的配合使用,為三元組數(shù)據(jù)的生成提供了技術基礎。
三元組數(shù)據(jù)的生成過程充滿了巧思。對于每一張目標風格化圖像,系統(tǒng)通過風格化專家生成對應的風格參考圖像,通過去風格化專家生成對應的內(nèi)容參考圖像。這個過程就像逆向工程:給定一個最終產(chǎn)品,推導出制作這個產(chǎn)品所需的原材料和工藝流程。通過這種方式,系統(tǒng)能夠為每個訓練樣本構建完整的"制作說明書"。
更重要的創(chuàng)新在于數(shù)據(jù)的多樣性設計。傳統(tǒng)的風格轉換數(shù)據(jù)往往局限于布局保持的場景,即輸出圖像與輸入圖像具有相同的構圖和空間安排。但USO的數(shù)據(jù)建構框架能夠生成兩種類型的三元組:布局保持型和布局轉換型。布局保持型三元組適合訓練傳統(tǒng)的風格轉換能力,而布局轉換型三元組則能夠訓練模型進行更靈活的主體-風格重組。
布局轉換型數(shù)據(jù)的生成是一個特別有趣的過程。系統(tǒng)不僅要保持主體的身份特征,還要將其放置到完全不同的場景和姿態(tài)中。這就像要求一個畫家不僅要掌握某人的面部特征,還要能夠畫出這個人在各種不同情境下的樣子:坐著讀書、站著演講、在海邊漫步等等。這種數(shù)據(jù)的豐富性為模型學習靈活的特征重組能力提供了基礎。
數(shù)據(jù)質量控制也是整個框架的重要環(huán)節(jié)。研究團隊引入了基于視覺語言模型的過濾機制,這個機制能夠自動評估生成的三元組數(shù)據(jù)的質量。具體來說,它會檢查目標圖像與風格參考圖像之間的風格相似性,以及目標圖像與內(nèi)容參考圖像之間的主體一致性。只有同時滿足這兩個條件的三元組才會被納入訓練數(shù)據(jù)集。
這種自動化的質量控制機制就像一個嚴格的質檢員,確保進入生產(chǎn)線的每一份原材料都符合標準。通過這種篩選,最終的訓練數(shù)據(jù)集不僅規(guī)模龐大,而且質量可靠,為模型的高效學習奠定了堅實基礎。
整個數(shù)據(jù)建構過程體現(xiàn)了"以模型訓練模型"的遞進式改進策略。通過利用現(xiàn)有的專業(yè)模型來生成新的訓練數(shù)據(jù),然后用這些數(shù)據(jù)訓練更強大的統(tǒng)一模型,系統(tǒng)實現(xiàn)了能力的螺旋式上升。這種策略不僅提高了數(shù)據(jù)利用效率,還為未來的持續(xù)改進提供了可擴展的框架。
五、實驗驗證:全方位性能評估與顯著優(yōu)勢展示
為了全面驗證USO模型的性能,研究團隊設計了一套綜合性的評估體系,并構建了專門的基準測試集USO-Bench。這個基準測試集的設計理念是提供公平、全面、具有挑戰(zhàn)性的評測環(huán)境,確保不同方法能夠在相同條件下進行比較。
USO-Bench包含了50張內(nèi)容圖像和50張風格參考圖像的精心組合,其中內(nèi)容圖像涵蓋20張以人為中心的圖像和30張以物體為中心的圖像。測試集還包括30個主體驅動生成提示詞和30個風格驅動生成提示詞,這些提示詞涵蓋了姿態(tài)變化、描述性風格化和指令性風格化等多種場景。通過這種全面的測試設計,基準測試能夠評估模型在各種實際應用場景下的表現(xiàn)。
評估指標的選擇體現(xiàn)了對不同任務特點的深入理解。對于主體一致性,研究團隊采用CLIP-I和DINO嵌入的余弦相似度進行測量,這兩個指標能夠從不同角度評估生成圖像與參考圖像中主體特征的相似程度。對于風格相似性,則使用專門的CSD評分模型,這個模型經(jīng)過專門訓練,能夠準確評估圖像間的風格一致性。對于文本對齊程度,使用CLIP-T分數(shù)來衡量生成圖像與文本描述的匹配程度。
在主體驅動生成任務上,USO在所有關鍵指標上都達到了最優(yōu)水平。DINO分數(shù)達到0.793,CLIP-I分數(shù)達到0.623,CLIP-T分數(shù)達到0.288,這些數(shù)字背后代表著顯著的性能提升。更重要的是,定性結果顯示USO能夠同時滿足描述性和指令性的風格編輯需求,同時保持高度的主體一致性。這種能力在現(xiàn)有方法中是很難找到的,大多數(shù)競爭方法要么無法有效應用風格變化,要么在風格轉換過程中丟失了主體特征。
風格驅動生成的實驗結果同樣令人印象深刻。USO在CSD評分上達到0.557,在CLIP-T評分上達到0.282,均為所有參比方法中的最高值。定性比較顯示,USO在保持原始風格方面表現(xiàn)卓越,無論是全局色彩調(diào)色板還是細致的筆觸紋理都能準確還原。特別值得注意的是,面對高度抽象的參考風格,如材質紋理或皮克斯風格渲染,USO都能處理得游刃有余,而傳統(tǒng)方法往往在這種挑戰(zhàn)性場景下表現(xiàn)不佳。
最具挑戰(zhàn)性的風格-主體聯(lián)合驅動生成任務展現(xiàn)了USO的獨特優(yōu)勢。在這個任務中,系統(tǒng)需要同時處理風格參考和內(nèi)容參考,生成既保持主體特征又符合目標風格的圖像。實驗結果顯示,USO的CSD分數(shù)達到0.495,CLIP-T分數(shù)達到0.283,大幅超越了所有基線方法。更重要的是,USO不僅能處理布局保持的場景,還能在布局轉換的復雜場景下保持優(yōu)秀表現(xiàn)。
用戶研究的結果為量化評估提供了有力的補充驗證。研究團隊組織了包括領域專家和普通用戶在內(nèi)的大規(guī)模在線問卷調(diào)查,參與者需要從文本保真度、視覺吸引力、主體一致性和整體質量等多個維度對不同方法進行排名。結果顯示,USO在主體驅動和風格驅動兩個任務上都獲得了最高的綜合評價,這表明USO的優(yōu)勢不僅體現(xiàn)在客觀指標上,也得到了人類用戶的主觀認可。
消融實驗進一步揭示了系統(tǒng)各個組件的重要性。當移除風格獎勵學習機制時,CSD分數(shù)出現(xiàn)顯著下降,同時CLIP-I和CLIP-T分數(shù)也有所降低。有趣的發(fā)現(xiàn)是,雖然風格獎勵學習主要針對風格任務設計,但它對主體任務的性能提升也很明顯,這再次證實了協(xié)同學習范式的有效性。移除風格對齊訓練或分離編碼器設計都會導致性能的明顯下降,表明系統(tǒng)的每個組件都是必要且有效的。
六、技術突破的深層意義與未來展望
USO模型的成功不僅僅是一個技術性突破,它更代表了AI圖像生成領域思維方式的根本性轉變。傳統(tǒng)的"分而治之"策略雖然在許多領域都很有效,但在需要精細特征分離的任務中,協(xié)同學習范式展現(xiàn)出了明顯的優(yōu)勢。這種范式的成功為其他相關領域提供了重要的啟示。
從技術角度來說,USO的貢獻主要體現(xiàn)在三個層面。首先是概念層面的創(chuàng)新,即將看似對立的兩個任務統(tǒng)一到一個協(xié)同學習框架中,這種思路轉變?yōu)榻鉀Q復雜的多目標優(yōu)化問題提供了新的思路。其次是技術層面的創(chuàng)新,包括分離式編碼器設計、層次化投影器、風格獎勵學習等具體技術組件,這些創(chuàng)新為實現(xiàn)協(xié)同學習提供了具體的技術手段。最后是應用層面的突破,USO首次實現(xiàn)了真正意義上的風格-主體聯(lián)合生成,為創(chuàng)意內(nèi)容制作開辟了全新的可能性。
這些技術突破的實際應用價值是顯而易見的。在數(shù)字內(nèi)容創(chuàng)作領域,USO能夠幫助藝術家和設計師快速生成具有特定風格的人物或物體圖像,同時保持角色的一致性。在電影和游戲制作中,這種技術可以用于角色設計和場景渲染,大大提高制作效率。在個性化內(nèi)容定制方面,用戶可以將自己的照片轉換成各種藝術風格,同時保持身份特征的準確性。
更深層的意義在于,USO的成功驗證了"協(xié)同智能"的可行性。在人工智能系統(tǒng)變得越來越復雜的今天,如何讓不同的智能組件有效協(xié)作成為一個重要問題。USO提供了一個成功的案例,展示了如何通過精心設計的協(xié)同機制讓不同的學習任務相互促進,達到"一加一大于二"的效果。
當然,USO系統(tǒng)也還存在一些局限性和改進空間。目前的系統(tǒng)主要針對二維圖像處理,未來可以考慮擴展到三維內(nèi)容生成。在處理極端風格變化時,系統(tǒng)偶爾還會出現(xiàn)特征混淆的情況。此外,訓練過程相對復雜,需要多個階段的精心調(diào)配,這在一定程度上增加了實際部署的難度。
展望未來,這種協(xié)同學習范式有望在更多領域得到應用。在視頻生成領域,可以考慮將動作一致性、風格一致性和內(nèi)容一致性作為協(xié)同學習的目標。在多模態(tài)生成中,可以探索圖像、文本和音頻之間的協(xié)同關系。在個性化AI系統(tǒng)中,可以讓不同的個性化維度相互配合,提供更精準的定制化服務。
研究團隊已經(jīng)開源了USO的代碼和模型權重,這為學術界和工業(yè)界的進一步研究提供了寶貴的資源。隨著更多研究者的參與和改進,相信這種協(xié)同學習的理念會在更廣泛的應用場景中發(fā)揮作用,推動整個AI領域向更加智能和協(xié)調(diào)的方向發(fā)展。
說到底,USO模型的真正價值不僅在于解決了風格轉換和主體保持的技術難題,更在于它展示了一種全新的思考方式:當面對復雜的多目標任務時,與其讓不同的系統(tǒng)各自為政,不如讓它們協(xié)同工作,在相互學習中實現(xiàn)共同進步。這種哲學不僅適用于技術領域,也為我們思考其他復雜問題提供了有益的啟示。就像交響樂團中的各種樂器,只有在協(xié)調(diào)配合下才能奏出最美妙的樂章,AI系統(tǒng)的各個組件也需要在精心設計的協(xié)同機制下才能發(fā)揮出最大的潛力。
Q&A
Q1:USO模型是什么?它與傳統(tǒng)AI圖像生成方法有什么不同?
A:USO是字節(jié)跳動開發(fā)的統(tǒng)一風格-主體優(yōu)化定制模型,它能夠同時處理風格轉換和主體保持兩種任務。與傳統(tǒng)方法將這兩種任務分開處理不同,USO通過協(xié)同學習的方式讓兩個任務相互促進,就像讓兩個專家互相學習一樣,最終實現(xiàn)更精確的特征分離和更好的生成效果。
Q2:普通用戶可以用USO模型做什么?有什么實際應用價值?
A:普通用戶可以用USO將自己的照片轉換成各種藝術風格(如油畫、動漫風格等),同時保持面部特征不變。還可以創(chuàng)作個性化內(nèi)容,比如把自己的形象放到不同場景中并應用特定風格。對于內(nèi)容創(chuàng)作者來說,這個工具可以大大提高角色設計和風格化圖像制作的效率。
Q3:USO模型的協(xié)同學習機制是如何工作的?為什么比傳統(tǒng)方法更有效?
A:USO的協(xié)同學習機制讓風格提取和主體保持兩個任務相互配合學習。當系統(tǒng)學會準確提取風格特征時,也在學習如何排除主體信息;反之亦然。這就像兩個人分別學習"什么是蘋果"和"什么不是蘋果",通過相互交流能比各自摸索學得更好。這種相互促進的學習方式實現(xiàn)了更精確的特征分離。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。