在數(shù)字圖像處理的世界里,AI已經(jīng)能夠完成許多令人驚嘆的任務(wù)——給照片中缺失的部分補(bǔ)上內(nèi)容、擴(kuò)展圖片邊界、移除不需要的物體,甚至在圖片上渲染漂亮的文字。然而,就像一個(gè)多才多藝卻缺乏藝術(shù)細(xì)胞的工匠,現(xiàn)有的AI圖像編輯工具雖然技術(shù)嫻熟,卻往往難以理解什么叫"好看"。這項(xiàng)由ByteDance公司的袁恭、王雄輝、吳杰等研究人員開展的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2508.21066v1),提出了一個(gè)名為OneReward的創(chuàng)新性解決方案,旨在教會(huì)AI圖像編輯模型如何理解和滿足人類的審美偏好。感興趣的讀者可以通過(guò)https://one-reward.github.io訪問(wèn)完整的研究資料和開源代碼。
想象一下這樣的情景:你雇傭了一位畫師來(lái)修復(fù)你的老照片,但這位畫師雖然技法精湛,卻完全不懂得什么是美觀。他可能會(huì)在需要自然過(guò)渡的地方畫得生硬突兀,或者在需要保持原有風(fēng)格的地方添加格格不入的元素?,F(xiàn)有的AI圖像編輯模型正面臨著類似的困境——它們?cè)诩夹g(shù)層面表現(xiàn)出色,但在理解人類審美偏好方面還有很大提升空間。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的AI圖像編輯工具普遍存在一個(gè)根本性問(wèn)題:它們往往針對(duì)特定任務(wù)進(jìn)行專門訓(xùn)練,就像培養(yǎng)只會(huì)做一道菜的廚師一樣。這種方法不僅效率低下,而且難以在不同類型的編輯任務(wù)之間保持一致的質(zhì)量水平。更重要的是,這些模型缺乏一個(gè)統(tǒng)一的"品味"標(biāo)準(zhǔn),無(wú)法判斷什么樣的編輯結(jié)果更符合人類的期望。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了OneReward——一個(gè)革命性的統(tǒng)一獎(jiǎng)勵(lì)模型框架。這就像為AI編輯工具配備了一位經(jīng)驗(yàn)豐富的藝術(shù)指導(dǎo),能夠在各種不同的編輯場(chǎng)景中提供一致的審美指導(dǎo)。OneReward的核心創(chuàng)新在于使用單一的視覺語(yǔ)言模型作為"萬(wàn)能評(píng)委",能夠在多種編輯任務(wù)和評(píng)價(jià)標(biāo)準(zhǔn)下判斷哪種編輯結(jié)果更好。
這種方法的巧妙之處在于,它將任務(wù)類型和評(píng)價(jià)標(biāo)準(zhǔn)直接融入到查詢指令中,讓同一個(gè)模型能夠根據(jù)不同的上下文做出相應(yīng)的判斷。這就像訓(xùn)練一位全能的藝術(shù)評(píng)論家,既能評(píng)價(jià)油畫的色彩搭配,又能評(píng)判雕塑的線條美感,還能鑒賞攝影作品的構(gòu)圖布局。
基于OneReward框架,研究團(tuán)隊(duì)開發(fā)了Seedream 3.0 Fill——一個(gè)能夠統(tǒng)一處理圖像填充、圖像擴(kuò)展、物體移除和文字渲染四大核心任務(wù)的先進(jìn)模型。這個(gè)模型的訓(xùn)練過(guò)程完全跳過(guò)了傳統(tǒng)的任務(wù)特定微調(diào)步驟,直接通過(guò)強(qiáng)化學(xué)習(xí)從預(yù)訓(xùn)練模型出發(fā),就像讓一位天賦異稟的學(xué)徒直接跟著大師學(xué)習(xí)各種技藝,而不是先在各個(gè)小作坊里分別練習(xí)。
一、人類偏好數(shù)據(jù)的精心收集
要教會(huì)AI什么是"好看",首先需要收集大量的人類審美偏好數(shù)據(jù),這個(gè)過(guò)程就像建立一個(gè)龐大的"美丑對(duì)比"數(shù)據(jù)庫(kù)。研究團(tuán)隊(duì)設(shè)計(jì)了一套精妙的數(shù)據(jù)收集流程,覆蓋了四個(gè)主要的圖像編輯任務(wù)場(chǎng)景。
在圖像填充和圖像擴(kuò)展任務(wù)中,AI需要根據(jù)用戶的文字描述在指定區(qū)域生成新的內(nèi)容。這就像在一幅未完成的畫作中添加缺失的部分,既要符合描述要求,又要與周圍環(huán)境和諧統(tǒng)一。而在物體移除任務(wù)中,AI的目標(biāo)是將不需要的元素從圖像中"無(wú)痕"清除,就像用魔法橡皮擦一樣,讓人完全看不出曾經(jīng)有東西被移除過(guò)。文字渲染任務(wù)則要求AI能夠在圖像上生成各種樣式的文字,這需要考慮字體選擇、顏色搭配以及與背景的協(xié)調(diào)性。
研究團(tuán)隊(duì)采用了一種聰明的數(shù)據(jù)生成策略。他們使用預(yù)訓(xùn)練的擴(kuò)散模型為每個(gè)樣本生成多個(gè)候選結(jié)果,通過(guò)隨機(jī)調(diào)整推理步數(shù)、負(fù)面提示詞和分類器自由引導(dǎo)尺度等參數(shù)來(lái)增加輸出的多樣性。這就像讓不同風(fēng)格的畫家為同一個(gè)主題創(chuàng)作,產(chǎn)生風(fēng)格迥異的作品供人們比較選擇。
在標(biāo)注環(huán)節(jié),研究團(tuán)隊(duì)設(shè)計(jì)了一套多維度評(píng)價(jià)體系。對(duì)于圖像填充和擴(kuò)展任務(wù),標(biāo)注者需要從結(jié)構(gòu)一致性、紋理協(xié)調(diào)性、文字對(duì)齊程度和整體美觀度四個(gè)維度進(jìn)行評(píng)價(jià)。結(jié)構(gòu)一致性考察生成內(nèi)容是否保持了原有的空間幾何關(guān)系,就像建筑師確保新加的房間與整體建筑風(fēng)格協(xié)調(diào)一樣。紋理協(xié)調(diào)性關(guān)注新生成區(qū)域是否與周圍環(huán)境在顏色、質(zhì)感和光照方面保持一致。文字對(duì)齊程度評(píng)估生成內(nèi)容是否準(zhǔn)確反映了用戶的文字描述要求。整體美觀度則從藝術(shù)角度評(píng)判最終結(jié)果的視覺效果。
對(duì)于物體移除任務(wù),評(píng)價(jià)標(biāo)準(zhǔn)相對(duì)簡(jiǎn)單,主要看移除質(zhì)量——目標(biāo)物體是否被完全清除,填補(bǔ)區(qū)域是否自然無(wú)痕。這個(gè)過(guò)程中,標(biāo)注者會(huì)采用"最佳-最差"選擇法,從多個(gè)候選結(jié)果中分別挑選出每個(gè)評(píng)價(jià)維度上表現(xiàn)最好和最差的樣本,形成對(duì)比數(shù)據(jù)對(duì)。
這種標(biāo)注方式的精妙之處在于,它允許同一個(gè)樣本在不同維度上有不同的表現(xiàn)。比如某個(gè)編輯結(jié)果可能在文字對(duì)齊方面表現(xiàn)優(yōu)秀,但在美觀度方面略遜一籌。這種細(xì)致入微的區(qū)分為后續(xù)的模型訓(xùn)練提供了豐富的監(jiān)督信號(hào),就像為AI老師準(zhǔn)備了一本詳細(xì)的評(píng)分手冊(cè),告訴它在什么情況下應(yīng)該給出怎樣的評(píng)價(jià)。
二、OneReward統(tǒng)一獎(jiǎng)勵(lì)模型的設(shè)計(jì)理念
傳統(tǒng)的AI圖像編輯模型訓(xùn)練就像培養(yǎng)專科醫(yī)生——每個(gè)模型只精通一種任務(wù),需要不同的評(píng)價(jià)標(biāo)準(zhǔn)和訓(xùn)練流程。這種方法不僅資源消耗巨大,而且難以保證各個(gè)模型之間的一致性。OneReward的出現(xiàn)就像引入了一位全科醫(yī)生的概念,用一個(gè)統(tǒng)一的框架來(lái)處理所有類型的圖像編輯任務(wù)。
OneReward的核心是一個(gè)精心設(shè)計(jì)的視覺語(yǔ)言模型,它能夠理解圖像內(nèi)容并根據(jù)文字指令進(jìn)行判斷。這個(gè)模型的工作方式很像一位經(jīng)驗(yàn)豐富的藝術(shù)評(píng)論家,能夠根據(jù)不同的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)作品進(jìn)行專業(yè)點(diǎn)評(píng)。當(dāng)需要評(píng)價(jià)一個(gè)圖像編輯結(jié)果時(shí),OneReward會(huì)接收兩張候選圖像以及一個(gè)包含任務(wù)類型和評(píng)價(jià)維度信息的查詢指令。
查詢指令的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的巧思。指令模板會(huì)根據(jù)具體任務(wù)和評(píng)價(jià)維度動(dòng)態(tài)生成相應(yīng)的問(wèn)題。比如在評(píng)價(jià)圖像填充任務(wù)的美觀度時(shí),指令可能會(huì)問(wèn):"從美學(xué)角度看,第一張圖像是否比第二張圖像更好看?"而在評(píng)價(jià)物體移除任務(wù)時(shí),指令則會(huì)問(wèn):"從移除質(zhì)量來(lái)看,第一張圖像的目標(biāo)物體是否比第二張圖像移除得更干凈?"
這種設(shè)計(jì)讓同一個(gè)模型能夠在不同的上下文中發(fā)揮作用,就像一個(gè)多面的評(píng)判專家,既可以是美術(shù)老師評(píng)價(jià)學(xué)生作品的構(gòu)圖,也可以是技術(shù)專家檢查產(chǎn)品的質(zhì)量缺陷。模型的輸出是簡(jiǎn)單的"是"或"否"判斷,通過(guò)分析模型生成這兩個(gè)詞的概率分布,研究團(tuán)隊(duì)可以得到一個(gè)連續(xù)的評(píng)分信號(hào)用于后續(xù)訓(xùn)練。
為了訓(xùn)練這個(gè)統(tǒng)一的獎(jiǎng)勵(lì)模型,研究團(tuán)隊(duì)采用了對(duì)比學(xué)習(xí)的方法。每個(gè)訓(xùn)練樣本包含一對(duì)圖像(winner和loser)以及對(duì)應(yīng)的查詢指令。模型需要學(xué)會(huì)在給定特定評(píng)價(jià)標(biāo)準(zhǔn)的情況下,正確識(shí)別出哪張圖像更符合人類偏好。這個(gè)過(guò)程就像訓(xùn)練一位鑒寶專家,通過(guò)大量的正品贗品對(duì)比練習(xí),最終能夠準(zhǔn)確判斷物品的真?zhèn)蝺r(jià)值。
訓(xùn)練完成后的OneReward模型在各個(gè)任務(wù)和維度上都表現(xiàn)出了令人滿意的準(zhǔn)確率。在文字對(duì)齊維度上,模型的判斷準(zhǔn)確率超過(guò)了80%,這得益于底層視覺語(yǔ)言模型在多模態(tài)理解方面的天然優(yōu)勢(shì)。在其他維度如一致性、結(jié)構(gòu)和美觀度上,準(zhǔn)確率也達(dá)到了70%以上的水平。特別是在物體移除任務(wù)上,模型達(dá)到了84.93%的移除質(zhì)量判斷準(zhǔn)確率,顯示出強(qiáng)大的細(xì)節(jié)識(shí)別能力。
三、多任務(wù)強(qiáng)化學(xué)習(xí)的訓(xùn)練策略
有了能夠準(zhǔn)確評(píng)判編輯質(zhì)量的OneReward模型,下一步就是將這種評(píng)判能力轉(zhuǎn)化為改進(jìn)圖像編輯模型的動(dòng)力。這個(gè)過(guò)程采用了強(qiáng)化學(xué)習(xí)的方法,就像讓一位學(xué)徒在師傅的指導(dǎo)下不斷練習(xí),通過(guò)反復(fù)的試錯(cuò)和改進(jìn)來(lái)提升技藝水平。
整個(gè)訓(xùn)練流程設(shè)計(jì)得非常巧妙。系統(tǒng)維護(hù)著三個(gè)版本的模型:一個(gè)負(fù)責(zé)學(xué)習(xí)改進(jìn)的策略模型、一個(gè)提供對(duì)比基準(zhǔn)的參考模型,以及一個(gè)通過(guò)指數(shù)移動(dòng)平均得到的穩(wěn)定版本模型。這種設(shè)置就像在藝術(shù)學(xué)校里設(shè)立了三個(gè)不同角色:努力學(xué)習(xí)的學(xué)生、經(jīng)驗(yàn)豐富的教師,以及代表歷史最佳水平的大師作品。
在每次訓(xùn)練迭代中,系統(tǒng)會(huì)從多個(gè)任務(wù)數(shù)據(jù)集中隨機(jī)選擇訓(xùn)練樣本,并為不同任務(wù)分配不同的采樣概率。研究團(tuán)隊(duì)發(fā)現(xiàn),那些相對(duì)困難的任務(wù)需要更多的訓(xùn)練關(guān)注,因此會(huì)獲得更高的采樣權(quán)重。這種動(dòng)態(tài)調(diào)整策略確保了模型能夠在各個(gè)任務(wù)上都達(dá)到較高的水準(zhǔn),而不是只擅長(zhǎng)某一種特定編輯類型。
訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)信號(hào)來(lái)源于OneReward模型的判斷結(jié)果。對(duì)于每個(gè)編輯樣本,策略模型生成的結(jié)果會(huì)與參考模型的輸出進(jìn)行比較,OneReward會(huì)根據(jù)具體的任務(wù)類型和評(píng)價(jià)維度給出偏好判斷。這個(gè)判斷結(jié)果被轉(zhuǎn)化為數(shù)值化的獎(jiǎng)勵(lì)信號(hào),用于指導(dǎo)策略模型的參數(shù)更新。
為了避免模型在訓(xùn)練過(guò)程中出現(xiàn)"投機(jī)取巧"的行為,研究團(tuán)隊(duì)設(shè)置了獎(jiǎng)勵(lì)上界限制。這就像在考試中設(shè)定防作弊措施,確保模型真正學(xué)到了編輯技能,而不是找到了某種欺騙評(píng)判系統(tǒng)的方法。同時(shí),多維度的同步優(yōu)化策略確保模型在追求某一方面改進(jìn)的同時(shí)不會(huì)犧牲其他方面的表現(xiàn)。
訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)曲線顯示出了清晰的上升趨勢(shì),表明模型在各個(gè)維度上都在持續(xù)改進(jìn)。雖然多任務(wù)學(xué)習(xí)會(huì)帶來(lái)一定的不穩(wěn)定性,但總體趨勢(shì)表明這種統(tǒng)一訓(xùn)練方法是有效的。特別值得注意的是,不同任務(wù)之間的獎(jiǎng)勵(lì)提升速度存在差異,這反映了任務(wù)本身的難易程度和數(shù)據(jù)分布特點(diǎn)。
四、動(dòng)態(tài)強(qiáng)化學(xué)習(xí)的創(chuàng)新優(yōu)化
在實(shí)際應(yīng)用OneReward框架的過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)的三模型并行訓(xùn)練方式雖然有效,但也帶來(lái)了一些實(shí)際問(wèn)題。維護(hù)三個(gè)大型模型需要占用大量?jī)?nèi)存資源,而且如果參考模型的質(zhì)量不夠高,可能會(huì)導(dǎo)致訓(xùn)練效果不佳,就像讓學(xué)徒跟著一位技藝一般的師傅學(xué)習(xí),進(jìn)步空間自然有限。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了動(dòng)態(tài)強(qiáng)化學(xué)習(xí)策略。這種方法的核心思想是讓參考模型隨著訓(xùn)練的進(jìn)行而不斷改進(jìn),而不是保持固定不變。具體來(lái)說(shuō),他們直接使用指數(shù)移動(dòng)平均模型作為參考基準(zhǔn),這樣參考模型的質(zhì)量會(huì)隨著策略模型的改進(jìn)而同步提升。
這種設(shè)計(jì)就像讓學(xué)徒的對(duì)手也在不斷進(jìn)步,確保每次比較都有足夠的挑戰(zhàn)性。隨著訓(xùn)練的深入,參考模型逐漸從"入門水平"提升到"高手水準(zhǔn)",這意味著策略模型需要不斷超越越來(lái)越高的標(biāo)準(zhǔn)才能獲得正面的獎(jiǎng)勵(lì)信號(hào)。這種自適應(yīng)的難度調(diào)節(jié)機(jī)制有效避免了模型在簡(jiǎn)單任務(wù)上的"躺平"行為,促使其持續(xù)追求更高的編輯質(zhì)量。
動(dòng)態(tài)框架的另一個(gè)優(yōu)勢(shì)是簡(jiǎn)化了整體的訓(xùn)練架構(gòu)。通過(guò)復(fù)用指數(shù)移動(dòng)平均模型作為參考基準(zhǔn),系統(tǒng)的內(nèi)存占用顯著降低,工程實(shí)現(xiàn)也變得更加簡(jiǎn)潔。這種優(yōu)化對(duì)于資源受限的研究環(huán)境特別有價(jià)值,讓更多團(tuán)隊(duì)能夠復(fù)現(xiàn)和改進(jìn)這一方法。
實(shí)驗(yàn)結(jié)果表明,動(dòng)態(tài)強(qiáng)化學(xué)習(xí)方法不僅保持了原有框架的性能優(yōu)勢(shì),在某些場(chǎng)景下甚至表現(xiàn)得更好。這驗(yàn)證了研究團(tuán)隊(duì)的設(shè)計(jì)理念:讓AI模型在不斷變化的挑戰(zhàn)中成長(zhǎng),往往比在固定標(biāo)準(zhǔn)下反復(fù)練習(xí)更有效果。
五、全面的實(shí)驗(yàn)評(píng)估和性能對(duì)比
為了驗(yàn)證OneReward框架和Seedream 3.0 Fill模型的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的評(píng)估體系,將其與多個(gè)業(yè)界領(lǐng)先的商業(yè)產(chǎn)品和開源模型進(jìn)行對(duì)比。這些對(duì)比對(duì)象包括Ideogram、Adobe Photoshop、Midjourney和FLUX Fill等知名工具,基本代表了當(dāng)前圖像編輯領(lǐng)域的最高水準(zhǔn)。
評(píng)估數(shù)據(jù)集經(jīng)過(guò)精心構(gòu)建,涵蓋了130張圖像填充樣本、100張物體移除樣本,以及200張圖像擴(kuò)展樣本(其中一半有文字提示,一半沒(méi)有文字提示)。這些樣本涵蓋了人像、風(fēng)景、寵物、排版等多種場(chǎng)景,以及寫實(shí)、動(dòng)漫、水彩、AI生成等不同藝術(shù)風(fēng)格,確保評(píng)估結(jié)果的全面性和代表性。
在人工評(píng)估環(huán)節(jié),研究團(tuán)隊(duì)邀請(qǐng)了40位參與者對(duì)生成結(jié)果進(jìn)行多維度打分。評(píng)估指標(biāo)包括整體可用性、文字對(duì)齊度、紋理一致性、風(fēng)格一致性、結(jié)構(gòu)合理性、美觀度、文字渲染質(zhì)量和移除質(zhì)量等。其中,可用性、文字渲染和移除質(zhì)量采用二元判斷方式,其他維度則使用1-5分的李克特量表評(píng)分。
實(shí)驗(yàn)結(jié)果令人印象深刻。在圖像填充任務(wù)中,Seedream 3.0 Fill達(dá)到了69.04%的整體可用性,比排名第二的競(jìng)爭(zhēng)對(duì)手高出16.93個(gè)百分點(diǎn)。在大多數(shù)評(píng)價(jià)維度上,包括文字對(duì)齊、紋理一致性、結(jié)構(gòu)合理性、美觀度和文字渲染方面,Seedream 3.0 Fill都取得了最高分?jǐn)?shù)。唯一的例外是風(fēng)格一致性,在這個(gè)維度上Ideogram略有優(yōu)勢(shì)。
在圖像擴(kuò)展任務(wù)中,無(wú)論是有文字提示還是無(wú)文字提示的場(chǎng)景,Seedream 3.0 Fill都表現(xiàn)出色。特別是在無(wú)提示的圖像擴(kuò)展任務(wù)中,該模型達(dá)到了87.54%的可用性率,在所有評(píng)價(jià)維度上都顯著超越競(jìng)爭(zhēng)對(duì)手。這個(gè)結(jié)果特別有意義,因?yàn)闊o(wú)提示擴(kuò)展需要模型完全依靠對(duì)原圖內(nèi)容的理解來(lái)生成合適的擴(kuò)展內(nèi)容,是對(duì)模型綜合能力的嚴(yán)峻考驗(yàn)。
物體移除任務(wù)的結(jié)果同樣令人滿意。Seedream 3.0 Fill獲得了82.22%的整體可用性和86.33%的移除質(zhì)量評(píng)分,明顯優(yōu)于其他競(jìng)爭(zhēng)對(duì)手。移除質(zhì)量的高分特別值得關(guān)注,因?yàn)檫@表明模型能夠生成很少包含意外物體的結(jié)果,而這種行為在其他生成任務(wù)(如圖像填充或擴(kuò)展)中通常是不被期望的。這種看似矛盾的要求能夠在同一個(gè)模型中得到很好的平衡,充分證明了多任務(wù)強(qiáng)化學(xué)習(xí)策略的有效性。
為了進(jìn)一步驗(yàn)證OneReward框架的貢獻(xiàn),研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),比較了使用和不使用獎(jiǎng)勵(lì)指導(dǎo)的Seedream 3.0 Fill模型。采用好-一般-差三級(jí)評(píng)判標(biāo)準(zhǔn)的對(duì)比結(jié)果顯示,在所有任務(wù)類型中,使用OneReward訓(xùn)練的模型都獲得了更高比例的"好"評(píng)價(jià),這直接證明了統(tǒng)一獎(jiǎng)勵(lì)模型在提升編輯質(zhì)量方面的作用。
六、開源貢獻(xiàn)和技術(shù)擴(kuò)展
除了在自有的Seedream 3.0基礎(chǔ)上開發(fā)統(tǒng)一編輯模型,研究團(tuán)隊(duì)還將OneReward框架應(yīng)用到了開源的FLUX Fill模型上,開發(fā)出FLUX Fill [dev][OneReward]版本。這個(gè)擴(kuò)展實(shí)驗(yàn)不僅驗(yàn)證了方法的通用性,也為開源社區(qū)提供了寶貴的資源。
FLUX Fill是目前開源社區(qū)中表現(xiàn)優(yōu)秀的圖像編輯模型之一,在填充和擴(kuò)展任務(wù)上都有不錯(cuò)的基礎(chǔ)性能。通過(guò)應(yīng)用OneReward框架進(jìn)行強(qiáng)化學(xué)習(xí)優(yōu)化,研究團(tuán)隊(duì)成功地提升了其在多個(gè)任務(wù)上的表現(xiàn)。實(shí)驗(yàn)對(duì)比顯示,優(yōu)化后的模型在視覺質(zhì)量和用戶滿意度方面都有明顯改進(jìn),特別是在需要精確控制和高質(zhì)量輸出的場(chǎng)景中表現(xiàn)更加穩(wěn)定。
這種跨模型的成功應(yīng)用證明了OneReward框架具有良好的可移植性。不同的基礎(chǔ)模型雖然在架構(gòu)細(xì)節(jié)上存在差異,但都能從統(tǒng)一的人類偏好學(xué)習(xí)框架中受益。這為整個(gè)圖像編輯領(lǐng)域提供了一個(gè)通用的改進(jìn)方案,讓各種不同的模型都能通過(guò)相似的方法獲得性能提升。
研究團(tuán)隊(duì)承諾將完整的訓(xùn)練代碼、模型權(quán)重和數(shù)據(jù)集向公眾開放,這對(duì)于推動(dòng)整個(gè)領(lǐng)域的發(fā)展具有重要意義。開源的模型和工具可以讓更多研究者和開發(fā)者在此基礎(chǔ)上進(jìn)行創(chuàng)新,加速相關(guān)技術(shù)的普及和應(yīng)用。同時(shí),公開的數(shù)據(jù)集也為其他團(tuán)隊(duì)開展類似研究提供了寶貴的起點(diǎn),避免了重復(fù)的數(shù)據(jù)收集工作。
從技術(shù)擴(kuò)展的角度看,OneReward框架的設(shè)計(jì)理念可以應(yīng)用到更廣泛的多模態(tài)生成任務(wù)中。視頻編輯、3D內(nèi)容生成、音頻處理等領(lǐng)域都面臨著類似的多任務(wù)統(tǒng)一優(yōu)化挑戰(zhàn),OneReward提供的統(tǒng)一獎(jiǎng)勵(lì)建模思路具有重要的參考價(jià)值。隨著多模態(tài)AI技術(shù)的不斷發(fā)展,這種統(tǒng)一的人類偏好學(xué)習(xí)方法很可能成為未來(lái)AI系統(tǒng)訓(xùn)練的標(biāo)準(zhǔn)范式。
歸根結(jié)底,這項(xiàng)研究解決了AI圖像編輯領(lǐng)域的一個(gè)根本性問(wèn)題:如何讓機(jī)器真正理解人類的審美偏好,并在此基礎(chǔ)上生成令人滿意的編輯結(jié)果。通過(guò)巧妙的統(tǒng)一獎(jiǎng)勵(lì)建模和多任務(wù)強(qiáng)化學(xué)習(xí),研究團(tuán)隊(duì)不僅開發(fā)出了性能優(yōu)秀的實(shí)用模型,更重要的是提供了一個(gè)可復(fù)制、可擴(kuò)展的方法框架。
這種技術(shù)進(jìn)步對(duì)普通用戶的意義是顯而易見的。未來(lái)的圖像編輯工具將能夠更好地理解用戶意圖,生成更符合審美期望的結(jié)果,讓每個(gè)人都能輕松創(chuàng)造出專業(yè)水準(zhǔn)的視覺內(nèi)容。對(duì)于內(nèi)容創(chuàng)作者、設(shè)計(jì)師和普通的社交媒體用戶來(lái)說(shuō),這意味著更高效的創(chuàng)作流程和更滿意的最終結(jié)果。從更宏觀的角度看,這項(xiàng)研究推動(dòng)了AI系統(tǒng)與人類價(jià)值觀對(duì)齊的探索,為構(gòu)建更加智能、更加人性化的AI工具奠定了重要基礎(chǔ)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪問(wèn)https://one-reward.github.io獲取完整的論文資料和開源代碼。
Q&A
Q1:OneReward和傳統(tǒng)的AI圖像編輯模型訓(xùn)練方法有什么區(qū)別?
A:傳統(tǒng)方法像培養(yǎng)??漆t(yī)生,每個(gè)模型只精通一種任務(wù),需要針對(duì)不同任務(wù)分別訓(xùn)練不同的模型。OneReward則像培養(yǎng)全科醫(yī)生,用一個(gè)統(tǒng)一的獎(jiǎng)勵(lì)模型來(lái)評(píng)判所有類型的圖像編輯任務(wù),通過(guò)強(qiáng)化學(xué)習(xí)讓模型同時(shí)掌握?qǐng)D像填充、擴(kuò)展、物體移除和文字渲染等多種技能。
Q2:Seedream 3.0 Fill在實(shí)際應(yīng)用中表現(xiàn)如何?
A:在與Ideogram、Adobe Photoshop、FLUX Fill等業(yè)界領(lǐng)先工具的對(duì)比中,Seedream 3.0 Fill在多數(shù)評(píng)價(jià)維度上都取得了最佳成績(jī)。比如在圖像填充任務(wù)中達(dá)到69.04%的整體可用性,比第二名高出近17個(gè)百分點(diǎn),在圖像擴(kuò)展無(wú)提示場(chǎng)景中更是達(dá)到了87.54%的可用性率。
Q3:普通用戶能否使用這項(xiàng)技術(shù)?研究成果是否開源?
A:研究團(tuán)隊(duì)承諾將完整的訓(xùn)練代碼、模型權(quán)重和數(shù)據(jù)集向公眾開放,用戶可以通過(guò)https://one-reward.github.io訪問(wèn)相關(guān)資源。他們還基于開源的FLUX Fill模型開發(fā)了優(yōu)化版本,讓更多開發(fā)者和研究者能夠在此基礎(chǔ)上進(jìn)行創(chuàng)新和應(yīng)用開發(fā)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。