這項(xiàng)由ByteDance UXO團(tuán)隊(duì)的程宇峰、吳文旭等研究人員于2025年9月完成的研究發(fā)表在arXiv預(yù)印本平臺(tái),論文題目為"UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward"。感興趣的讀者可以通過https://github.com/bytedance/UMO 訪問完整的代碼和模型資源。
說起AI生成圖片,大家可能都不陌生。你給AI一段文字描述,它就能畫出相應(yīng)的圖片來。但是有一個(gè)讓人頭疼的問題:當(dāng)你想讓AI同時(shí)畫出幾個(gè)不同的人物時(shí),經(jīng)常會(huì)出現(xiàn)"認(rèn)錯(cuò)人"的情況。比如你上傳了張三和李四的照片,想讓AI畫一幅他們一起踢足球的圖片,結(jié)果AI可能把張三畫成了李四的樣子,或者干脆把兩個(gè)人都畫得差不多,分不清誰是誰。
這就好比讓一個(gè)臉盲癥患者同時(shí)記住好幾個(gè)人的長(zhǎng)相,然后根據(jù)你的描述畫出他們。當(dāng)只有一個(gè)人的時(shí)候,他還能勉強(qiáng)畫對(duì),但人數(shù)一多,就開始混淆不清了。這種"身份混亂"的問題嚴(yán)重限制了AI在個(gè)性化內(nèi)容創(chuàng)作中的應(yīng)用。
ByteDance的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問題背后的根本原因:現(xiàn)有的AI方法采用的是一種"一對(duì)一匹配"的思路,就像給每個(gè)參考照片分配一個(gè)固定的生成位置。但這種方法忽略了一個(gè)重要事實(shí):同一個(gè)人在不同情境下可能會(huì)有很大變化(比如不同表情、角度、穿著),而不同人在某些條件下可能看起來很相似。當(dāng)需要生成的人物越來越多時(shí),這種"一對(duì)一"的方法就力不從心了。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)叫做UMO的全新框架,這個(gè)名字代表"統(tǒng)一多身份優(yōu)化"。UMO的核心創(chuàng)新在于采用了"多對(duì)多匹配"的策略,就像一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)演在安排演員站位時(shí),會(huì)綜合考慮所有演員的特點(diǎn)和劇情需要,然后做出最佳的整體安排。
一、重新定義問題:從固定匹配到靈活分配
傳統(tǒng)的AI生成方法就像一個(gè)刻板的老師,總是讓學(xué)生按照固定的座位表坐下:第一張參考照片對(duì)應(yīng)生成圖片中的第一個(gè)人,第二張照片對(duì)應(yīng)第二個(gè)人,以此類推。這種方法看起來很有條理,但實(shí)際使用中卻問題重重。
當(dāng)你想生成一張"三個(gè)朋友在海邊聊天"的圖片時(shí),傳統(tǒng)方法會(huì)嚴(yán)格按照你上傳照片的順序來安排生成結(jié)果。但問題是,照片中的光線、角度、表情都可能與最終生成圖片的要求不完全匹配。如果第一張參考照片是一個(gè)人的側(cè)臉,而生成圖片中需要的是正面朝向鏡頭的人,傳統(tǒng)方法就會(huì)勉強(qiáng)按照側(cè)臉照片生成正面圖像,結(jié)果往往不理想。
UMO團(tuán)隊(duì)提出了一個(gè)革命性的想法:為什么不讓AI自己決定哪張參考照片最適合生成圖片中的哪個(gè)人物呢?就像一個(gè)聰明的畫家,他會(huì)仔細(xì)觀察所有的參考素材,然后選擇最合適的角度和特征來完成作品。
具體來說,UMO會(huì)同時(shí)考慮所有的參考照片和需要生成的所有人物位置,然后通過復(fù)雜的計(jì)算找到最佳的匹配方案。這個(gè)過程就像解一個(gè)復(fù)雜的拼圖游戲,每一塊拼圖(參考照片)都要找到它最合適的位置(生成人物),整體效果才能達(dá)到最佳。
二、核心技術(shù):將匹配問題轉(zhuǎn)化為優(yōu)化游戲
為了實(shí)現(xiàn)這種"多對(duì)多"的智能匹配,研究團(tuán)隊(duì)借鑒了一個(gè)經(jīng)典的數(shù)學(xué)問題——匈牙利算法。這個(gè)算法最初是為了解決工作分配問題而設(shè)計(jì)的:假設(shè)你有10個(gè)工人和10項(xiàng)工作,每個(gè)工人完成不同工作的效率都不一樣,如何分配才能讓整體效率最高?
在UMO的系統(tǒng)中,"工人"就是參考照片中的人物,"工作"就是生成圖片中需要填充的人物位置。系統(tǒng)會(huì)計(jì)算每張參考照片與每個(gè)生成位置的"相似度得分",然后找到一個(gè)全局最優(yōu)的分配方案。
這個(gè)相似度得分是怎么計(jì)算的呢?研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的評(píng)分系統(tǒng)。他們使用專門的人臉識(shí)別網(wǎng)絡(luò)來提取每張照片的"身份特征",這些特征就像每個(gè)人獨(dú)特的"身份指紋"。然后,系統(tǒng)會(huì)比較參考照片的身份指紋和生成圖片中每個(gè)人物的身份指紋,相似度越高,得分就越高。
但這里有個(gè)關(guān)鍵點(diǎn):UMO不僅要讓匹配的人物盡可能相似(提高正確匹配的得分),還要讓不匹配的人物盡可能不同(降低錯(cuò)誤匹配的得分)。這就像在玩一個(gè)雙重游戲:既要找到最像的配對(duì),又要避免錯(cuò)誤的配對(duì)。
三、訓(xùn)練方式:用獎(jiǎng)勵(lì)機(jī)制指導(dǎo)學(xué)習(xí)
有了好的匹配策略,接下來的問題是如何訓(xùn)練AI系統(tǒng)。傳統(tǒng)的訓(xùn)練方法就像教學(xué)生做數(shù)學(xué)題:給標(biāo)準(zhǔn)答案,讓學(xué)生反復(fù)練習(xí),做錯(cuò)了就糾正。但在多人物生成這個(gè)問題上,很難定義什么是"標(biāo)準(zhǔn)答案",因?yàn)橥粋€(gè)描述可能有多種合理的生成結(jié)果。
UMO采用了一種全新的訓(xùn)練方式,叫做"獎(jiǎng)勵(lì)反饋學(xué)習(xí)"。這種方法更像是訓(xùn)練寵物:做得好就給獎(jiǎng)勵(lì),做得不好就減少獎(jiǎng)勵(lì),讓AI系統(tǒng)自己摸索出最佳的生成策略。
具體的訓(xùn)練過程是這樣的:AI系統(tǒng)首先根據(jù)給定的文字描述和參考照片生成一張圖片。然后,UMO的評(píng)分系統(tǒng)會(huì)對(duì)這張生成圖片進(jìn)行"打分":如果人物身份保持得好,不同人物之間區(qū)分度高,就給高分;如果出現(xiàn)身份混亂或者人物特征不清晰,就給低分。
這個(gè)評(píng)分不是簡(jiǎn)單的對(duì)錯(cuò)判斷,而是一個(gè)連續(xù)的數(shù)值。系統(tǒng)會(huì)根據(jù)這個(gè)分?jǐn)?shù)調(diào)整自己的生成策略:哪種操作得到了高分,下次就更傾向于使用類似的操作;哪種操作導(dǎo)致了低分,就會(huì)盡量避免。
經(jīng)過大量的訓(xùn)練,AI系統(tǒng)逐漸學(xué)會(huì)了在生成多人圖片時(shí)如何更好地保持每個(gè)人的身份特征,同時(shí)避免不同人物之間的混淆。
四、數(shù)據(jù)準(zhǔn)備:構(gòu)建多樣化的訓(xùn)練素材
要訓(xùn)練出一個(gè)優(yōu)秀的多人物生成系統(tǒng),需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。但現(xiàn)有的公開數(shù)據(jù)集大多只包含單人或雙人的情況,很少有包含更多人物的素材。研究團(tuán)隊(duì)不得不自己構(gòu)建一個(gè)新的數(shù)據(jù)集。
他們采用了兩種策略來收集數(shù)據(jù)。第一種方法是從電影和電視劇中提取素材。這些影視作品通常包含大量的多人場(chǎng)景,而且同一個(gè)演員會(huì)在不同場(chǎng)景中以不同的角度、表情和服裝出現(xiàn),這正是訓(xùn)練多身份生成系統(tǒng)所需要的素材多樣性。
研究團(tuán)隊(duì)開發(fā)了一套自動(dòng)化的提取系統(tǒng):首先從長(zhǎng)視頻中找到包含多個(gè)人物的關(guān)鍵幀,然后在同一部作品的其他片段中尋找這些人物的其他出現(xiàn)場(chǎng)景。這樣,對(duì)于每個(gè)多人場(chǎng)景,他們都能找到對(duì)應(yīng)的多張參考照片。
第二種方法是使用現(xiàn)有的AI生成技術(shù)來創(chuàng)造合成數(shù)據(jù)。他們讓AI系統(tǒng)生成大量的虛擬人物圖像,然后將這些虛擬人物組合成各種多人場(chǎng)景。雖然這些合成數(shù)據(jù)的質(zhì)量可能不如真實(shí)照片,但經(jīng)過嚴(yán)格的篩選和過濾,仍然可以作為訓(xùn)練數(shù)據(jù)的有效補(bǔ)充。
最終,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含數(shù)萬張多人圖像的訓(xùn)練數(shù)據(jù)集,每張圖像都配有對(duì)應(yīng)的多張參考照片和詳細(xì)的文字描述。這個(gè)數(shù)據(jù)集覆蓋了從2人到6人的各種組合,包含了不同的年齡、性別、種族和場(chǎng)景設(shè)置。
五、評(píng)估標(biāo)準(zhǔn):如何衡量身份混亂程度
為了客觀評(píng)估UMO系統(tǒng)的效果,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)新的評(píng)估指標(biāo),專門用來測(cè)量多人生成中的身份混亂程度。這個(gè)指標(biāo)叫做"身份混亂度"。
傳統(tǒng)的評(píng)估方法通常只關(guān)注生成圖片中的人物與參考照片的相似程度,但這種方法無法有效檢測(cè)身份混亂的問題。比如,如果AI把兩個(gè)不同的人都生成成了同一張臉,傳統(tǒng)指標(biāo)可能仍然會(huì)給出不錯(cuò)的分?jǐn)?shù),因?yàn)樯傻哪槾_實(shí)與其中一張參考照片很相似。
身份混亂度指標(biāo)的設(shè)計(jì)思路是這樣的:對(duì)于每張參考照片,系統(tǒng)會(huì)在生成圖片中找到與它最相似的人物,以及第二相似的人物。如果這兩個(gè)相似度差距很大,說明身份區(qū)分度很好;如果差距很小,說明可能出現(xiàn)了混亂,即多個(gè)生成人物都與同一張參考照片相似。
這個(gè)指標(biāo)的計(jì)算過程就像評(píng)判一場(chǎng)選美比賽:我們不僅要看冠軍的得分有多高,還要看冠軍和亞軍的得分差距有多大。差距越大,說明冠軍的優(yōu)勢(shì)越明顯,身份區(qū)分度就越好。
通過這個(gè)新指標(biāo),研究團(tuán)隊(duì)能夠更準(zhǔn)確地評(píng)估不同方法在多人生成任務(wù)中的表現(xiàn),特別是在避免身份混亂方面的能力。
六、實(shí)驗(yàn)結(jié)果:顯著提升多人生成質(zhì)量
研究團(tuán)隊(duì)在多個(gè)不同的基礎(chǔ)模型上測(cè)試了UMO方法的效果,結(jié)果令人印象深刻。他們選擇了兩個(gè)代表性的基礎(chǔ)模型:UNO和OmniGen2,這兩個(gè)模型在單人生成任務(wù)上都有不錯(cuò)的表現(xiàn),但在多人生成上存在明顯的身份混亂問題。
在單人生成任務(wù)上,UMO將UNO模型的身份相似度從47.91分提升到了80.89分,將OmniGen2模型從62.41分提升到了91.57分。這種提升幅度是相當(dāng)顯著的,意味著生成圖片中的人物與參考照片的相似度有了質(zhì)的飛躍。
在多人生成任務(wù)上,效果更加明顯。UMO將UNO模型的身份相似度從31.82分提升到69.09分,身份混亂度從61.06分提升到78.06分。這表明不僅生成的人物更像參考照片,而且不同人物之間的區(qū)分度也大大提高了。
為了更直觀地展示效果,研究團(tuán)隊(duì)還進(jìn)行了大量的視覺對(duì)比實(shí)驗(yàn)。在這些對(duì)比中,可以清楚地看到傳統(tǒng)方法生成的多人圖片中經(jīng)常出現(xiàn)面部特征混亂、人物難以區(qū)分的問題,而UMO生成的圖片中每個(gè)人物都保持了鮮明的個(gè)性特征,身份清晰可辨。
特別值得注意的是,UMO的改進(jìn)不僅僅體現(xiàn)在身份保持上,在其他方面如圖片質(zhì)量、文字描述匹配度等指標(biāo)上也都有不同程度的提升。這說明UMO的優(yōu)化是全方位的,而不是以犧牲其他性能為代價(jià)來換取身份一致性的提升。
七、用戶反饋:專業(yè)人士和普通用戶都認(rèn)可
除了客觀的數(shù)值評(píng)估,研究團(tuán)隊(duì)還進(jìn)行了大規(guī)模的用戶調(diào)研,邀請(qǐng)了包括專業(yè)設(shè)計(jì)師和普通用戶在內(nèi)的數(shù)百人對(duì)生成效果進(jìn)行主觀評(píng)價(jià)。
調(diào)研結(jié)果顯示,在身份一致性、圖片美觀度、文字描述匹配度和整體滿意度四個(gè)維度上,UMO都獲得了最高的用戶評(píng)分。特別是在身份一致性方面,UMO的得分明顯超過了其他所有對(duì)比方法,證明了用戶能夠直觀地感受到身份混亂問題的改善。
一位參與測(cè)試的專業(yè)攝影師表示:"使用UMO生成的多人照片,每個(gè)人的面部特征都很清晰,不會(huì)出現(xiàn)那種'大眾臉'的感覺。這對(duì)于需要個(gè)性化內(nèi)容創(chuàng)作的場(chǎng)景來說非常重要。"
普通用戶的反饋也很積極。一位用戶說:"我之前試過讓AI畫我和朋友們的合影,結(jié)果AI總是把我們畫得很像,分不清誰是誰。用了這個(gè)新方法后,每個(gè)人都能保持自己的特色,感覺就像真的在一起拍照一樣。"
八、技術(shù)細(xì)節(jié):巧妙的工程實(shí)現(xiàn)
雖然UMO的核心思想并不復(fù)雜,但要將其成功應(yīng)用到實(shí)際的AI系統(tǒng)中,需要解決許多技術(shù)細(xì)節(jié)問題。
首先是計(jì)算效率問題。多對(duì)多匹配的計(jì)算復(fù)雜度相對(duì)較高,特別是當(dāng)人物數(shù)量增加時(shí),可能的匹配組合會(huì)呈指數(shù)級(jí)增長(zhǎng)。研究團(tuán)隊(duì)采用了優(yōu)化的匈牙利算法實(shí)現(xiàn),并結(jié)合了一些啟發(fā)式策略來加速計(jì)算過程。
其次是訓(xùn)練穩(wěn)定性問題。獎(jiǎng)勵(lì)反饋學(xué)習(xí)雖然靈活有效,但也容易出現(xiàn)訓(xùn)練不穩(wěn)定的情況。研究團(tuán)隊(duì)通過精心設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的權(quán)重配置,以及采用漸進(jìn)式訓(xùn)練策略,確保了訓(xùn)練過程的穩(wěn)定性。
還有一個(gè)重要的工程考慮是如何與現(xiàn)有的生成模型無縫集成。UMO被設(shè)計(jì)成一個(gè)通用的優(yōu)化框架,可以很容易地應(yīng)用到不同的基礎(chǔ)生成模型上,而不需要對(duì)原有模型進(jìn)行大幅修改。這種設(shè)計(jì)使得UMO具有很強(qiáng)的實(shí)用價(jià)值。
為了驗(yàn)證這種通用性,研究團(tuán)隊(duì)在多種不同架構(gòu)的生成模型上進(jìn)行了測(cè)試,包括基于擴(kuò)散模型的UNO和基于transformer的OmniGen2。實(shí)驗(yàn)結(jié)果證明,UMO在所有測(cè)試的基礎(chǔ)模型上都能帶來顯著的改進(jìn)效果。
九、應(yīng)用前景:開啟個(gè)性化內(nèi)容創(chuàng)作新時(shí)代
UMO的成功不僅僅是一個(gè)技術(shù)突破,更重要的是它為個(gè)性化內(nèi)容創(chuàng)作開辟了全新的可能性。在娛樂產(chǎn)業(yè)中,電影制片人可以使用UMO來快速生成概念圖和故事板,在不同場(chǎng)景中準(zhǔn)確展現(xiàn)每個(gè)角色的特征。
在教育領(lǐng)域,教師可以創(chuàng)建包含多個(gè)歷史人物的教學(xué)圖片,幫助學(xué)生更好地理解歷史事件。在社交媒體上,用戶可以輕松制作包含朋友和家人的創(chuàng)意圖片,而不用擔(dān)心AI會(huì)把大家畫得面目模糊。
企業(yè)營銷也是一個(gè)重要的應(yīng)用場(chǎng)景。品牌可以使用UMO來創(chuàng)建包含真實(shí)客戶或員工的宣傳素材,確保每個(gè)人的特征都能準(zhǔn)確呈現(xiàn),提高內(nèi)容的真實(shí)感和親和力。
虛擬現(xiàn)實(shí)和游戲開發(fā)是另一個(gè)充滿潛力的應(yīng)用領(lǐng)域。游戲開發(fā)者可以使用UMO來生成包含多個(gè)玩家角色的游戲場(chǎng)景,確保每個(gè)角色都保持獨(dú)特的視覺特征。這對(duì)于提升游戲的沉浸感和個(gè)性化體驗(yàn)非常重要。
甚至在醫(yī)療和心理健康領(lǐng)域,UMO也可能發(fā)揮作用。心理治療師可以使用這項(xiàng)技術(shù)幫助患者重構(gòu)記憶中的場(chǎng)景,或者創(chuàng)建用于治療的視覺材料。
十、技術(shù)限制與未來改進(jìn)方向
盡管UMO取得了顯著的成果,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的一些限制。最主要的限制是隨著人物數(shù)量的增加,生成質(zhì)量會(huì)出現(xiàn)一定程度的下降。當(dāng)需要同時(shí)生成超過6個(gè)人物時(shí),即使是UMO也會(huì)面臨挑戰(zhàn)。
這個(gè)問題的根源在于基礎(chǔ)生成模型本身的能力限制。當(dāng)輸入的參考圖片數(shù)量增加時(shí),模型需要處理的信息量呈幾何級(jí)數(shù)增長(zhǎng),這超出了當(dāng)前模型架構(gòu)的處理能力。研究團(tuán)隊(duì)認(rèn)為,隨著更強(qiáng)大的基礎(chǔ)模型的出現(xiàn),這個(gè)限制將會(huì)得到緩解。
另一個(gè)限制是對(duì)極端風(fēng)格化場(chǎng)景的處理能力。當(dāng)用戶要求生成非常藝術(shù)化或風(fēng)格化的圖片時(shí),比如卡通風(fēng)格或油畫風(fēng)格,UMO的身份保持能力會(huì)有所下降。這是因?yàn)轱L(fēng)格轉(zhuǎn)換過程中可能會(huì)丟失一些重要的身份特征信息。
計(jì)算成本也是一個(gè)需要考慮的因素。相比于傳統(tǒng)的生成方法,UMO需要額外的計(jì)算資源來進(jìn)行多對(duì)多匹配和獎(jiǎng)勵(lì)計(jì)算。雖然這個(gè)增加的成本在可接受范圍內(nèi),但對(duì)于需要大規(guī)模部署的應(yīng)用場(chǎng)景來說,仍然需要進(jìn)一步優(yōu)化。
研究團(tuán)隊(duì)已經(jīng)在規(guī)劃下一階段的改進(jìn)工作。他們計(jì)劃開發(fā)更高效的匹配算法,減少計(jì)算開銷;同時(shí)研究如何更好地處理風(fēng)格化生成任務(wù),以及如何擴(kuò)展到更多人物的場(chǎng)景。
說到底,UMO代表了AI圖像生成領(lǐng)域的一個(gè)重要進(jìn)步。它不僅解決了一個(gè)實(shí)際存在的技術(shù)問題,更重要的是提供了一種全新的思路來處理多對(duì)象生成任務(wù)。這種"全局優(yōu)化"的思想可能會(huì)對(duì)整個(gè)AI生成領(lǐng)域產(chǎn)生深遠(yuǎn)的影響。
對(duì)于普通用戶來說,UMO意味著更好的個(gè)性化內(nèi)容創(chuàng)作體驗(yàn)。不久的將來,當(dāng)你想要?jiǎng)?chuàng)建包含家人朋友的創(chuàng)意圖片時(shí),再也不用擔(dān)心AI會(huì)把大家畫得面目模糊、難以辨認(rèn)了。每個(gè)人都將在數(shù)字世界中保持自己獨(dú)特的面孔和特征,這讓AI生成的內(nèi)容更加真實(shí)、更有溫度。
從技術(shù)發(fā)展的角度來看,UMO也為其他相關(guān)研究提供了有價(jià)值的啟發(fā)。它展示了如何將經(jīng)典的優(yōu)化算法與現(xiàn)代深度學(xué)習(xí)技術(shù)相結(jié)合,如何設(shè)計(jì)有效的獎(jiǎng)勵(lì)機(jī)制來指導(dǎo)模型學(xué)習(xí),以及如何構(gòu)建針對(duì)特定問題的評(píng)估標(biāo)準(zhǔn)。這些經(jīng)驗(yàn)和方法論對(duì)于推動(dòng)整個(gè)AI領(lǐng)域的發(fā)展都具有重要意義。
目前,研究團(tuán)隊(duì)已經(jīng)開源了UMO的代碼和預(yù)訓(xùn)練模型,任何對(duì)此感興趣的開發(fā)者和研究人員都可以基于他們的工作進(jìn)行進(jìn)一步的創(chuàng)新和應(yīng)用。這種開放的態(tài)度將有助于加速相關(guān)技術(shù)的發(fā)展和普及,讓更多的人能夠受益于這項(xiàng)技術(shù)突破。
Q&A
Q1:UMO與傳統(tǒng)AI生成方法的主要區(qū)別在哪里?
A:傳統(tǒng)方法采用"一對(duì)一匹配",即第一張參考照片固定對(duì)應(yīng)生成圖片中的第一個(gè)人,容易造成身份混亂。UMO采用"多對(duì)多匹配"策略,讓AI自動(dòng)選擇最合適的參考照片來生成每個(gè)人物,就像智能拼圖一樣找到最佳組合。
Q2:UMO在多人生成任務(wù)上效果如何?能處理多少人?
A:UMO顯著改善了多人生成質(zhì)量。在測(cè)試中,將UNO模型的身份相似度從31.82分提升到69.09分,身份混亂度從61.06分提升到78.06分。目前能較好處理2-6人的場(chǎng)景,超過6人時(shí)會(huì)面臨一定挑戰(zhàn)。
Q3:普通用戶如何體驗(yàn)UMO技術(shù)?
A:目前研究團(tuán)隊(duì)已在GitHub開源了UMO的代碼和模型(https://github.com/bytedance/UMO),開發(fā)者可以基于此進(jìn)行應(yīng)用開發(fā)。預(yù)計(jì)不久的將來會(huì)有更多基于UMO技術(shù)的用戶友好產(chǎn)品出現(xiàn),讓普通用戶能夠輕松創(chuàng)作高質(zhì)量的多人圖片。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。