這項由北京人工智能研究院的吳晨原、鄭鵬飛、閆瑞然、肖世濤等研究團隊共同完成的突破性研究,發(fā)表于2025年6月,論文標題為《OmniGen2: Exploration to Advanced Multimodal Generation》。感興趣的讀者可以通過arXiv:2506.18871v1訪問完整論文,或者訪問項目頁面https://vectorspacelab.github.io/OmniGen2以及GitHub倉庫https://github.com/VectorSpaceLab/OmniGen2獲得更多資源。
要理解OmniGen2的重要性,我們可以把現在的AI圖像生成比作一群各有專長的廚師。有的廚師只會做中餐,有的只會烘焙,有的只會改良現有菜品。當你想要一頓完整的晚餐時,就需要在不同廚房之間跑來跑去,既麻煩又費時。而OmniGen2就像是一位全能大廚,能夠獨自完成從前菜到甜點的所有料理,還能根據你的要求即時調整菜品風格。
與之前的版本OmniGen相比,OmniGen2采用了一種全新的"雙廚房"設計理念。傳統(tǒng)的方法就像讓同一個廚師既要處理文字菜單又要制作圖像菜品,結果往往顧此失彼。而OmniGen2則設置了兩個專門的工作臺:一個專門處理文字理解和生成,另一個專門負責圖像創(chuàng)作。這種分工讓每個部分都能發(fā)揮最佳水平,就像讓專業(yè)的面點師傅專心做面食,讓炒菜師傅專心掌勺一樣。
研究團隊在數據準備方面也下了一番苦功。他們不滿足于現有的"半成品食材",而是從頭開始構建了一套完整的"食材供應鏈"。特別是在圖像編輯和情境生成方面,他們開發(fā)了從視頻中提取高質量訓練數據的方法,就像從新鮮農場直接采摘蔬菜,而不是使用冷凍食品。
更令人驚喜的是,OmniGen2還具備了"自我反思"的能力。當它生成一張圖像后,能夠像經驗豐富的大廚一樣品嘗自己的作品,發(fā)現不足之處并主動改進。比如當你要求"一張有四個紅蘋果的圖片",它生成的圖片只有三個蘋果時,OmniGen2會自動意識到這個問題,然后重新制作一張符合要求的圖片。
為了全面評估這種"情境理解"能力,研究團隊還專門設計了一套名為OmniContext的評測標準。這就像為大廚設計了一套全面的烹飪考試,包含了人物、物品、場景等各種復雜情況的測試。結果顯示,OmniGen2在這些測試中表現優(yōu)異,特別是在保持角色一致性方面達到了開源模型中的最高水平。
一、雙軌制設計:讓專業(yè)的人做專業(yè)的事
OmniGen2最核心的創(chuàng)新在于它的雙軌制架構設計。這種設計思路源于一個簡單而深刻的觀察:讓同一套系統(tǒng)既要精通文字處理又要擅長圖像生成,就像要求一個人既是莎士比亞又是達芬奇,實際上是強人所難的。
研究團隊通過大量實驗發(fā)現了一個有趣的現象。當他們嘗試用更強大的語言模型替換原有系統(tǒng)時,圖像生成質量竟然下降了。這就好比一個頂級的文學評論家未必能畫出好畫,甚至可能因為過于注重文字的精確性而束縛了視覺創(chuàng)作的自由度。
基于這個發(fā)現,OmniGen2采用了"術業(yè)有專攻"的策略。它設置了兩條完全獨立的處理路徑:一條專門負責自回歸文本建模,另一條專門處理擴散圖像生成。這兩條路徑各自使用獨立的參數,互不干擾,就像交響樂團中小提琴手專注于弦樂部分,而不需要兼顧打擊樂器一樣。
在圖像編碼方面,OmniGen2也采用了分層處理的策略。系統(tǒng)使用視覺變換器(ViT)來理解圖像的語義內容,同時使用變分自編碼器(VAE)來捕捉圖像的細節(jié)特征。這種雙重編碼就像人類既用眼睛看整體構圖,又用放大鏡觀察細節(jié)紋理。ViT負責理解"這是一只貓坐在沙發(fā)上",而VAE則關注"貓毛的質感"和"沙發(fā)布料的紋理"。
特別值得一提的是OmniGen2的位置編碼創(chuàng)新。傳統(tǒng)的位置編碼就像給每個像素點編號,但在復雜的多圖像任務中,這種簡單編號會造成混亂。OmniGen2設計了一種三維位置編碼系統(tǒng),叫做Omni-RoPE。這個系統(tǒng)為每個圖像分配唯一的身份標識,同時在圖像內部使用局部坐標系。這就像給每棟建筑一個門牌號,同時在建筑內部使用樓層和房間號的組合編碼,既能區(qū)分不同建筑,又能精確定位建筑內的具體位置。
二、數據工廠:從源頭保證食材新鮮
數據質量對AI模型的重要性,就如同食材新鮮度對美食的重要性。研究團隊發(fā)現,現有的開源數據集就像超市里打折的隔夜蔬菜,雖然便宜易得,但質量堪憂,特別是在圖像編輯和情境生成任務上。
為了解決這個問題,研究團隊建立了一套完整的"數據農場"。他們的核心思路是從視頻中提取高質量的訓練樣本。視頻天然包含了同一對象在不同條件下的多種表現,就像一個人在不同燈光、不同角度下的連續(xù)照片,為模型提供了豐富的學習素材。
在情境生成數據的構建過程中,研究團隊設計了一套精密的流水線。首先,他們從視頻中提取關鍵幀,然后使用Qwen2.5-VL-7B模型識別畫面中的主要對象。這就像讓一個經驗豐富的攝影師從大量照片中挑選出最具代表性的幾張。接下來,他們使用GroundingDINO技術精確定位對象的位置,再用SAM2技術進行對象分割和跟蹤。
整個過程還加入了嚴格的質量控制環(huán)節(jié)。系統(tǒng)會使用多重過濾機制確保提取的對象確實是同一個,避免將相似但不同的對象誤認為是同一個。這就像在生產線上設置多道質檢關卡,確保每一件產品都符合標準。
在圖像編輯數據方面,研究團隊采用了一種巧妙的"逆向工程"方法。他們不是先有編輯指令再生成對應的圖像,而是先制作圖像對,然后讓AI模型觀察兩張圖像的差異并描述編輯過程。這種方法避免了指令與實際效果不匹配的問題,就像讓廚師品嘗兩道菜的區(qū)別,然后描述如何從第一道菜改進到第二道菜。
特別創(chuàng)新的是反思數據的構建。研究團隊讓模型生成圖像后,再讓它自己評判生成結果是否符合要求。如果發(fā)現問題,模型需要分析錯誤原因并提出改進方案,然后重新生成。這個過程就像讓學生不僅要完成作業(yè),還要自己批改作業(yè)并總結錯誤,從而培養(yǎng)自我改進的能力。
三、全能測試:OmniContext基準的誕生
為了全面評估OmniGen2的能力,研究團隊意識到現有的評測標準就像用小學數學題來考察大學生,既不夠全面也不夠深入。特別是在情境生成能力的評測上,市面上缺乏一套像樣的"綜合考試"。
于是,研究團隊開發(fā)了OmniContext基準測試。這套測試就像為AI設計的"全能競賽",涵蓋了人物、物體、場景三大類別,總共八個細分任務。每個任務都有50個精心設計的測試案例,確保覆蓋各種復雜情況。
測試的設計理念很巧妙。它不僅要求模型生成好看的圖像,更要求生成的圖像在內容上高度準確。比如,給模型看一張小女孩的照片,然后要求生成"這個小女孩在海邊堆沙堡"的場景。模型不僅要生成一張質量上佳的海邊圖片,還要確保圖片中的小女孩確實是輸入照片中的那個孩子,而不是另一個相似的小孩。
評測過程采用了GPT-4.1作為"考官"。這個AI考官會從兩個維度打分:一是"指令遵循度",看生成的圖像是否按照要求完成了任務;二是"主體一致性",檢查生成圖像中的人物或物體是否與參考圖像保持一致。這種評測方式比傳統(tǒng)的數值指標更接近人類的判斷標準。
測試結果顯示,OmniGen2在這套嚴格的考試中表現出色,總分達到7.18分(滿分10分),在開源模型中排名第一。特別值得一提的是,OmniGen2在處理多對象組合任務時表現尤為突出,展現了優(yōu)秀的"情境理解"能力。
四、反思機制:會自我改進的AI
OmniGen2最令人印象深刻的功能之一是它的自我反思能力。這種能力讓AI不再是一個"一次性"的工具,而是一個能夠持續(xù)改進的"學習伙伴"。
反思機制的工作原理很有趣。當OmniGen2生成一張圖像后,它會像一個嚴格的老師一樣檢查自己的作品。如果用戶要求"一張有四個紅蘋果的圖片",而生成的圖片只有三個蘋果,系統(tǒng)會自動識別這個問題,并分析:"描述中提到四個蘋果,但圖像中只顯示三個,需要再添加一個蘋果。"然后系統(tǒng)會基于這個分析重新生成圖像。
這種反思過程是可以多輪進行的。如果第二次生成的圖像仍有問題,系統(tǒng)會繼續(xù)反思和改進,直到達到滿意的結果或者確認已經符合要求。整個過程就像一個認真的學生反復修改作文,每次都針對發(fā)現的問題進行具體改進。
研究團隊發(fā)現,這種反思機制在處理顏色、數量、形狀等具體要求時特別有效。比如用戶要求"黃色的西蘭花",如果系統(tǒng)生成了綠色的西蘭花,反思機制會準確識別顏色錯誤并進行修正。同樣,在數量要求上,如果要求"三塊披薩"卻只生成了一塊,系統(tǒng)也能準確發(fā)現并補充。
不過,研究團隊也誠實地指出了反思機制的局限性。有時候系統(tǒng)會"過度反思",對本來正確的結果提出不必要的修改意見。這就像一個過于嚴格的完美主義者,有時會對已經很好的作品吹毛求疵。另外,在處理一些簡單指令時,反思機制可能會增加不必要的復雜性。
盡管如此,反思機制的引入標志著AI圖像生成技術的一個重要進步。它讓AI從"被動執(zhí)行"轉向"主動優(yōu)化",這種轉變的意義不僅僅在于技術層面,更在于它展示了AI系統(tǒng)向更智能、更自主方向發(fā)展的可能性。
五、性能表現:數據說話的實力證明
OmniGen2的實際表現就像一場全能比賽的成績單,在多個項目上都展現了強勁實力。在視覺理解能力測試中,OmniGen2在MMBench上得到79.1分,在MMMU測試中獲得53.1分,在MM-Vet評估中達到61.8分。這些成績雖然不是最頂尖的,但考慮到OmniGen2同時還要兼顧圖像生成任務,這樣的表現已經相當出色。
在文字轉圖像的核心任務上,OmniGen2的表現更加亮眼。在GenEval測試中,它獲得了0.86分的高分(滿分1.0),這個成績與參數量和訓練數據都多得多的BAGEL模型(0.88分)相當接近。更令人贊嘆的是,OmniGen2只使用了40億個可訓練參數和1500萬張訓練圖片,而BAGEL使用了140億參數和16億張圖片。這種效率差異就像一個小排量汽車跑出了大排量汽車的速度。
在DPG-Bench測試中,OmniGen2得到83.57分,同樣表現優(yōu)異。這個測試主要評估模型處理復雜長文本指令的能力,高分說明OmniGen2能夠很好地理解和執(zhí)行復雜的創(chuàng)作要求。
圖像編輯能力的測試結果更加說明了OmniGen2的實用價值。在Emu-Edit測試中,OmniGen2在CLIP-Out指標上獲得最高分0.309,這個指標衡量的是編輯結果與指令的匹配度。同時,它在CLIP-I和DINO指標上分別獲得0.876和0.822的次優(yōu)成績,這兩個指標評估的是對未編輯區(qū)域的保護程度。這種平衡表現說明OmniGen2既能準確執(zhí)行編輯指令,又能很好地保持圖像其他部分不受影響。
在ImgEdit-Bench這個更全面的編輯測試中,OmniGen2取得了3.44分的總成績,在開源模型中名列前茅。特別值得一提的是,在動作修改這個細分任務上,OmniGen2獲得了4.68分的高分,展現了從視頻數據中學習的優(yōu)勢。
最引人注目的是在OmniContext基準測試中的表現。OmniGen2作為第一個在該基準上測試的模型,就取得了7.18分的優(yōu)異成績。在單一對象任務中獲得7.81分,多對象任務中獲得7.23分,場景任務中獲得6.71分。這種全面而均衡的表現,證明了OmniGen2在情境生成方面的強大能力。
與閉源商業(yè)模型相比,OmniGen2在某些方面仍有差距。比如GPT-4o在OmniContext測試中獲得了8.80分的更高成績。但考慮到OmniGen2是完全開源的,任何人都可以下載使用和改進,它的價值遠不止性能數字那么簡單。
六、實際應用:從實驗室到現實世界
OmniGen2的強大功能在實際應用中展現出了廣闊的前景。在文字轉圖像方面,它能夠處理各種復雜的創(chuàng)作需求,從簡單的物體描述到復雜的場景構建,都能生成高質量的結果。更重要的是,它支持不同的圖像比例,從方形到寬屏,從豎版到橫版,都能很好地適應。
在圖像編輯領域,OmniGen2展現了令人印象深刻的靈活性。它可以進行局部修改,比如改變衣服顏色、添加裝飾品;也可以進行整體風格轉換,比如將真實照片轉換為動漫風格;還可以進行復雜的場景替換,比如將人物從室內場景移到海邊。這種全方位的編輯能力讓它成為內容創(chuàng)作者的得力助手。
情境生成功能則為個性化內容創(chuàng)作開辟了新的可能性。用戶可以上傳自己的照片,然后讓OmniGen2生成各種有趣的場景。比如,上傳一張寵物貓的照片,然后要求生成"這只貓在巴黎埃菲爾鐵塔前留影"的圖像。這種功能對于社交媒體內容創(chuàng)作、個人紀念品制作等場景都有很大價值。
反思功能的實際應用價值尤其突出。在傳統(tǒng)的AI圖像生成中,如果結果不滿意,用戶只能重新輸入指令碰運氣。而OmniGen2的反思機制讓整個過程變得更可控和高效。系統(tǒng)能夠理解哪里出了問題,并主動進行改進,大大減少了用戶的試錯成本。
不過,研究團隊也誠實地指出了一些使用限制。OmniGen2在處理中文指令時的表現不如英文指令穩(wěn)定,這主要是因為訓練數據中英文內容占主導地位。在處理低質量輸入圖像時,輸出質量也會受到明顯影響。另外,在處理涉及多個圖像源的復雜指令時,如果指令表述不夠明確,系統(tǒng)可能會產生混淆。
特別需要注意的是,OmniGen2在某些特定任務上還有改進空間。比如在人體形態(tài)修改方面,由于缺乏足夠的訓練數據,效果還不夠理想。在處理一些需要精確細節(jié)的任務時,比如修改圖像中的文字內容,表現也有待提升。
七、技術細節(jié):深入了解工作原理
OmniGen2的技術架構體現了現代AI設計的智慧。整個系統(tǒng)基于Qwen2.5-VL-3B作為多模態(tài)理解的基礎,這個30億參數的模型負責處理文本和圖像的理解任務。在訓練過程中,這部分參數基本保持凍結狀態(tài),只更新新引入的特殊標記,這樣既保持了原有的理解能力,又加入了圖像生成的觸發(fā)機制。
擴散生成部分采用了獨立的變換器架構,包含32層網絡,隱藏維度為2520,總計約40億參數。這個規(guī)模的設計既保證了生成質量,又控制了計算成本。系統(tǒng)使用修正流(Rectified Flow)方法進行圖像生成,這種方法相比傳統(tǒng)的擴散過程更加高效。
Omni-RoPE位置編碼的設計特別巧妙。它將位置信息分解為三個組件:序列和模態(tài)標識符、二維高度坐標、二維寬度坐標。對于文本標記,只使用序列標識符,自然退化為標準的一維位置編碼。對于圖像標記,所有三個組件都發(fā)揮作用,能夠精確編碼圖像中每個位置的信息。
訓練策略采用了分階段的方法。首先在文字轉圖像任務上訓練擴散模型,然后引入混合任務訓練,最后進行反思能力的端到端訓練。這種漸進式的訓練方法確保了模型在每個階段都能穩(wěn)定學習,避免了同時學習多個復雜任務可能帶來的干擾。
在推理過程中,當系統(tǒng)遇到特殊標記時,會自動切換到圖像生成模式。MLLM產生的隱藏狀態(tài)與VAE提取的視覺特征一起輸入到擴散解碼器中,生成最終的圖像。整個過程是端到端的,用戶體驗流暢自然。
數據處理流程也體現了嚴格的質量控制。從視頻中提取的每一幀都要經過多重過濾,包括DINO相似性過濾、VLM一致性檢查等。這種多層過濾機制確保了訓練數據的高質量,這對最終模型性能至關重要。
八、未來展望:走向更智能的多模態(tài)世界
OmniGen2的發(fā)布標志著多模態(tài)AI發(fā)展的一個重要里程碑,但它更像是一個新起點而不是終點。研究團隊在論文中坦誠地分析了當前的限制,并指出了未來的發(fā)展方向。
在模型規(guī)模方面,當前的30億參數MLLM雖然在效率上有優(yōu)勢,但在處理復雜推理任務時還有提升空間。研究團隊計劃探索更大規(guī)模的模型,同時保持系統(tǒng)的整體效率。這就像在汽車設計中既要提升發(fā)動機功率,又要保持燃油經濟性的平衡。
數據質量的提升是另一個重要方向。雖然研究團隊已經建立了從視頻中提取高質量數據的流程,但在某些特定領域,比如文字編輯、人體形態(tài)修改等方面,還需要更多針對性的數據。未來的工作可能會包括更精細化的數據收集和處理方法。
反思機制的完善也是一個重要的研究方向。當前的反思系統(tǒng)有時會出現過度反思或者反思不準確的問題。研究團隊計劃引入強化學習等方法來提升反思的準確性和效率。這種改進將讓AI系統(tǒng)變得更加智能和可靠。
多語言支持的改進也在計劃之中。目前OmniGen2在處理中文等非英語指令時表現不夠穩(wěn)定,這主要是由于訓練數據的語言分布不均勻導致的。未來的版本將加強對多語言的支持,讓更多國家和地區(qū)的用戶能夠享受到優(yōu)質的AI服務。
從更廣闊的角度來看,OmniGen2代表了向通用人工智能邁進的重要一步。它展示了單一模型處理多種復雜任務的可能性,這種統(tǒng)一性對于構建更智能、更自然的AI系統(tǒng)具有重要意義。未來的AI助手可能會像OmniGen2一樣,能夠無縫地在不同模態(tài)之間切換,為用戶提供真正智能化的服務。
更重要的是,OmniGen2的開源特性為整個AI社區(qū)提供了寶貴的資源。世界各地的研究者和開發(fā)者都可以基于這個基礎進行改進和創(chuàng)新,這種開放合作的模式有望加速整個領域的發(fā)展進程。
說到底,OmniGen2不僅僅是一個技術產品,更是對AI發(fā)展方向的一次重要探索。它告訴我們,真正智能的AI系統(tǒng)應該具備統(tǒng)一性、適應性和自我改進的能力。雖然距離完美還有很長的路要走,但OmniGen2已經為我們展示了一個充滿可能性的未來。對于普通用戶來說,這意味著更強大、更易用的AI工具正在向我們走來。對于研究者來說,這提供了新的思路和平臺。對于整個人工智能領域來說,這是向下一個發(fā)展階段邁出的重要一步。
研究團隊承諾將繼續(xù)開源更多的模型、代碼和數據集,這種開放的態(tài)度值得贊賞。毫無疑問,OmniGen2將激發(fā)更多的研究和應用,推動多模態(tài)AI技術向更高水平發(fā)展。對于關注AI發(fā)展的人們來說,這確實是一個值得期待的時代。
Q&A
Q1:OmniGen2相比其他AI圖像生成工具有什么特別之處? A:OmniGen2最大的特點是"一個模型搞定所有任務",它可以同時進行文字轉圖像、圖像編輯、情境生成等多種任務,而不需要切換不同的工具。更重要的是,它具備自我反思能力,能發(fā)現生成圖像的問題并自動改進,這是其他工具很少具備的功能。
Q2:普通用戶能直接使用OmniGen2嗎?使用門檻高不高? A:是的,OmniGen2是完全開源的,普通用戶可以通過GitHub倉庫下載使用。不過目前主要面向有一定技術基礎的用戶,需要自己搭建運行環(huán)境。對于沒有技術背景的用戶來說,可能需要等待基于OmniGen2開發(fā)的更友好的應用產品。
Q3:OmniGen2的反思功能是如何工作的?會不會出錯? A:反思功能讓OmniGen2在生成圖像后自動檢查結果是否符合要求,如果發(fā)現問題(比如數量不對、顏色錯誤),會自動重新生成。不過這個功能也有局限性,有時會出現"過度反思"的情況,對本來正確的結果提出不必要的修改建議。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。