av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ShareGPT-4o-Image:香港中文大學(xué)(深圳)突破性成果,讓AI生成圖像技術(shù)走向全民化

ShareGPT-4o-Image:香港中文大學(xué)(深圳)突破性成果,讓AI生成圖像技術(shù)走向全民化

2025-06-30 17:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 17:56 ? 科技行者

這項由香港中文大學(xué)(深圳)的陳俊穎、蔡振洋、陳鵬程、陳舜年等研究團(tuán)隊在2025年6月發(fā)表于arXiv平臺的研究(論文編號:arXiv:2506.18095v1),可以說是AI圖像生成領(lǐng)域的一次重要突破。對于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過GitHub項目頁面(https://github.com/FreedomIntelligence/ShareGPT-4o-Image)獲取完整的數(shù)據(jù)集和模型。

當(dāng)前最先進(jìn)的AI圖像生成技術(shù)掌握在少數(shù)大公司手中,就像高級餐廳的秘制菜譜一樣,普通人只能品嘗卻無法學(xué)習(xí)制作方法。GPT-4o-Image雖然能夠生成令人驚嘆的照片級圖像,但它就像一個密不透風(fēng)的黑盒子,研究人員和開發(fā)者們只能望而興嘆。這種技術(shù)壟斷嚴(yán)重阻礙了整個AI圖像生成領(lǐng)域的發(fā)展進(jìn)步。

正是在這樣的背景下,香港中文大學(xué)(深圳)的研究團(tuán)隊決定打破這種技術(shù)壁壘。他們的策略非常巧妙:既然無法直接獲得GPT-4o-Image的內(nèi)部工作原理,那就通過大量的"師傅帶徒弟"式學(xué)習(xí),讓開源模型掌握同樣的技能。這就好比一個天才廚師雖然不知道米其林三星餐廳的具體烹飪步驟,但通過反復(fù)品嘗和練習(xí),最終也能做出同樣美味的菜肴。

研究團(tuán)隊首先構(gòu)建了一個名為ShareGPT-4o-Image的大型數(shù)據(jù)集,這個數(shù)據(jù)集包含了91000個精心設(shè)計的樣本,其中45000個用于文本生成圖像的任務(wù),46000個用于基于文本和圖像生成新圖像的任務(wù)。這些樣本就像是一本巨大的"烹飪教程",詳細(xì)記錄了各種"食材"(文本描述)應(yīng)該如何"烹制"成精美的"菜肴"(圖像)。

為了確保這些"教程"的質(zhì)量和多樣性,研究團(tuán)隊設(shè)計了兩套互補(bǔ)的生成策略。第一套策略叫做"提示優(yōu)先方法",就像按照標(biāo)準(zhǔn)食譜烹飪一樣。研究人員首先定義了一個六維度的屬性空間,包括物體、背景、風(fēng)格、光照、拍攝角度和構(gòu)圖技巧等要素,就好比烹飪中的主料、配菜、調(diào)料、火候、刀工和擺盤技巧。然后從ImageNet數(shù)據(jù)庫中選取1000個物體類別作為"食材庫",通過隨機(jī)組合這些屬性來生成結(jié)構(gòu)化的文本描述,最后交給GPT-4o-Image來"烹制"對應(yīng)的圖像。

第二套策略被稱為"圖像優(yōu)先方法",更像是"逆向工程"的思路。研究團(tuán)隊從ALLaVA數(shù)據(jù)集中選取高質(zhì)量的真實(shí)圖像,然后讓大語言模型仔細(xì)觀察這些圖像,生成能夠準(zhǔn)確描述圖像內(nèi)容的文本描述。這種方法就像是品嘗一道美味佳肴后,努力推測出制作這道菜的具體步驟和原料配比。通過這種方式,研究團(tuán)隊確保了數(shù)據(jù)集中的文本描述既能覆蓋人工設(shè)計的各種情況,又能貼近真實(shí)世界中自然出現(xiàn)的場景。

對于圖像編輯任務(wù),研究團(tuán)隊設(shè)計了更加復(fù)雜的"三重奏"訓(xùn)練方法。每個訓(xùn)練樣本都包含三個要素:原始圖像、編輯指令和編輯后的圖像。研究團(tuán)隊將圖像編輯任務(wù)分為14個具體類別,歸納為5個大類,包括物體操作、風(fēng)格轉(zhuǎn)換、背景修改、條件控制和創(chuàng)意生成等。這就像是為一位畫家準(zhǔn)備了各種不同的"改畫任務(wù)":有時需要在畫中添加一個人物,有時需要把油畫風(fēng)格改成水彩風(fēng)格,有時需要更換整個背景場景。

在獲得了這個珍貴的"教學(xué)材料庫"后,研究團(tuán)隊開始訓(xùn)練他們的學(xué)生模型Janus-4o。這個模型是在已有的Janus-Pro模型基礎(chǔ)上進(jìn)行改進(jìn)的,就像在一個已經(jīng)很優(yōu)秀的學(xué)徒基礎(chǔ)上進(jìn)一步傳授高級技藝。訓(xùn)練過程分為兩個主要部分:文本生成圖像和文本加圖像生成新圖像。

**一、文本生成圖像的技術(shù)突破**

對于文本生成圖像任務(wù),Janus-4o采用了自回歸的方式來生成圖像。這個過程可以比作寫作文,模型需要根據(jù)給定的題目(文本描述),一個詞一個詞地"寫出"對應(yīng)的圖像內(nèi)容。不過這里的"詞"不是普通的文字,而是經(jīng)過特殊編碼的圖像片段,叫做圖像標(biāo)記。

具體來說,當(dāng)模型接收到一個文本提示時,比如"一只橙色的貓咪坐在紅色沙發(fā)上",它首先會將這段文字轉(zhuǎn)換成一系列文本標(biāo)記。然后模型開始生成對應(yīng)的圖像標(biāo)記序列,每生成一個圖像標(biāo)記,都會考慮前面已經(jīng)生成的所有內(nèi)容和原始的文本描述。這個過程就像是一位畫家在畫布上一筆一筆地作畫,每一筆都要考慮整體構(gòu)圖和前面已經(jīng)畫好的部分。

為了提高生成質(zhì)量,研究團(tuán)隊在訓(xùn)練過程中采用了一個巧妙的技巧:隨機(jī)遮蔽10%的文本內(nèi)容。這就像是讓學(xué)生在考試時偶爾看不到完整的題目,從而訓(xùn)練他們根據(jù)圖像的內(nèi)在邏輯來完成創(chuàng)作。這種訓(xùn)練方式幫助模型更好地理解圖像像素之間的依賴關(guān)系,而不是過度依賴文本描述。

在推理階段,模型使用了一種被稱為"分類器自由引導(dǎo)"的技術(shù)。這個技術(shù)可以比作在繪畫時使用兩支不同的畫筆:一支畫筆專門負(fù)責(zé)根據(jù)文本描述作畫,另一支畫筆則完全憑借想象自由發(fā)揮。最終的圖像是兩支畫筆協(xié)同工作的結(jié)果,其中第一支畫筆的權(quán)重更大,確保生成的圖像符合文本要求,而第二支畫筆則增加創(chuàng)意和自然性。

**二、文本和圖像協(xié)同生成的創(chuàng)新機(jī)制**

Janus-4o最大的創(chuàng)新之一是支持基于文本和圖像的協(xié)同生成,這是其前身Janus-Pro所不具備的能力。這種任務(wù)需要模型既要理解輸入圖像的語義內(nèi)容,又要能夠按照文本指令對圖像進(jìn)行精確修改。

為了實(shí)現(xiàn)這個功能,研究團(tuán)隊設(shè)計了一套雙重編碼機(jī)制。當(dāng)模型接收到一張輸入圖像時,它會通過兩條并行的路徑來處理這張圖像。第一條路徑使用圖像編碼器提取圖像的語義特征,就像是讓模型"看懂"圖像內(nèi)容;第二條路徑將圖像轉(zhuǎn)換成標(biāo)記序列,就像是將圖像"翻譯"成模型能夠直接操作的"語言"。

這兩種表示方式各有優(yōu)勢:語義特征幫助模型理解圖像的高層含義,比如這是一張風(fēng)景照還是人物肖像;而圖像標(biāo)記則提供了像素級的詳細(xì)信息,確保生成的新圖像能夠保持原圖的細(xì)節(jié)特征。這就好比一位修圖師既要理解照片的整體構(gòu)圖和主題,又要掌握每個像素點(diǎn)的具體顏色和亮度信息。

在訓(xùn)練過程中,為了防止模型過度依賴輸入圖像而失去創(chuàng)新能力,研究團(tuán)隊隨機(jī)遮蔽50%的圖像標(biāo)記。這種做法迫使模型學(xué)會在不完整信息的基礎(chǔ)上進(jìn)行推理和創(chuàng)作,就像讓藝術(shù)家在只能看到畫作一半的情況下完成整幅作品的修改。

推理時的技術(shù)更加精妙。模型需要計算三種不同的概率分布:完全基于輸入信息的條件概率、遮蔽圖像標(biāo)記后的條件概率,以及完全無條件的概率。這三種概率的加權(quán)組合決定了最終生成圖像的特征。研究團(tuán)隊引入了一個控制參數(shù)s',用來調(diào)節(jié)生成圖像與原圖的相似度:較小的s'值會讓新圖像更接近原圖,適合進(jìn)行細(xì)微調(diào)整;較大的s'值則允許更大膽的創(chuàng)意修改,適合風(fēng)格轉(zhuǎn)換等任務(wù)。

**三、聯(lián)合訓(xùn)練策略的精妙設(shè)計**

研究團(tuán)隊沒有將文本生成圖像和圖像編輯兩個任務(wù)分開訓(xùn)練,而是采用了聯(lián)合訓(xùn)練的策略。這種方法就像是讓一個學(xué)生同時學(xué)習(xí)繪畫和修圖,兩種技能可以相互促進(jìn),共同提高。

整個訓(xùn)練過程使用了ShareGPT-4o-Image數(shù)據(jù)集中的全部91000個樣本,包括45000個文本生成圖像樣本和46000個圖像編輯樣本。訓(xùn)練時通過隨機(jī)采樣的方式混合這兩類任務(wù),讓模型在每個訓(xùn)練周期中都能接觸到不同類型的挑戰(zhàn)。

訓(xùn)練的技術(shù)參數(shù)經(jīng)過精心調(diào)優(yōu):學(xué)習(xí)率設(shè)置為5×10^-6,這個數(shù)值既不會讓模型學(xué)習(xí)過快而錯過細(xì)節(jié),也不會學(xué)習(xí)過慢而影響效率;批量大小設(shè)置為128,確保每次更新都有足夠的樣本來穩(wěn)定梯度;總共訓(xùn)練3個周期,讓模型有充分的時間消化所有訓(xùn)練材料。值得一提的是,整個訓(xùn)練過程只需要6小時,在一臺配備8塊A800 GPU的機(jī)器上完成,這種效率在當(dāng)前的AI模型訓(xùn)練中算是相當(dāng)出色的。

**四、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)**

為了驗(yàn)證Janus-4o的實(shí)際性能,研究團(tuán)隊進(jìn)行了全面而嚴(yán)格的評估實(shí)驗(yàn)。他們選擇了多個權(quán)威基準(zhǔn)測試,就像為學(xué)生安排了不同科目的期末考試,全方位檢驗(yàn)?zāi)P偷母黜椖芰Α?/p>

在文本生成圖像任務(wù)上,研究團(tuán)隊使用了GenEval和DPG-Bench兩個主要基準(zhǔn)。GenEval主要測試模型處理復(fù)雜組合關(guān)系的能力,比如能否正確生成"兩只不同顏色的貓坐在綠色桌子上"這樣包含多個對象和屬性的圖像。測試結(jié)果顯示,Janus-4o在總體評分上達(dá)到了80分(滿分100分),比其前身Janus-Pro提升了4個百分點(diǎn)。特別是在顏色屬性和屬性識別方面,Janus-4o的表現(xiàn)有了顯著提升,這說明新的訓(xùn)練數(shù)據(jù)有效地增強(qiáng)了模型對細(xì)節(jié)特征的把握能力。

DPG-Bench測試則更加注重語義對齊和指令跟隨能力。這個基準(zhǔn)會給模型一些相對復(fù)雜的文本描述,然后檢查生成的圖像是否準(zhǔn)確反映了文本中的所有要求。Janus-4o在這個測試中獲得了85.71分,比Janus-Pro高出1.6分。雖然提升幅度看似不大,但在這個競爭激烈的領(lǐng)域中,每一分的提升都代表著顯著的技術(shù)進(jìn)步。

更加令人印象深刻的是圖像編輯任務(wù)的表現(xiàn)。研究團(tuán)隊使用ImgEdit-Bench來評估模型的圖像編輯能力,這個基準(zhǔn)包含了8個不同類別的編輯任務(wù):添加對象、移除對象、替換對象、動作變化、風(fēng)格轉(zhuǎn)換、背景修改、對象提取和混合編輯。每個類別都有其特定的挑戰(zhàn)和技術(shù)要求。

Janus-4o在圖像編輯任務(wù)上取得了3.26分的平均成績(滿分5分),超越了所有對比的開源模型。特別值得注意的是,Janus-4o在動作變化和風(fēng)格轉(zhuǎn)換這兩個最具挑戰(zhàn)性的類別中表現(xiàn)尤為出色,分別獲得了4.13分和4.47分的高分。這個結(jié)果特別令人興奮,因?yàn)镴anus-4o使用的訓(xùn)練數(shù)據(jù)只有91000個樣本,而其他競爭對手使用的訓(xùn)練數(shù)據(jù)規(guī)模往往達(dá)到數(shù)百萬甚至千萬級別。

**五、人類評估的真實(shí)反饋**

除了自動化的基準(zhǔn)測試,研究團(tuán)隊還進(jìn)行了人類評估實(shí)驗(yàn),邀請真實(shí)用戶來比較不同模型的輸出質(zhì)量。這種評估方式更加貼近實(shí)際應(yīng)用場景,就像讓真正的美食家來品鑒不同廚師的作品。

評估采用了盲測的方式,評估者不知道哪張圖像來自哪個模型,只需要根據(jù)圖像質(zhì)量、指令符合度和視覺美觀度來選擇更好的結(jié)果。測試樣本來自真實(shí)的社交媒體帖子,包括52個文本生成圖像的例子和35個圖像編輯的例子,確保測試內(nèi)容貼近用戶的實(shí)際需求。

結(jié)果顯示,在文本生成圖像任務(wù)中,人類評估者在51.9%的情況下更喜歡Janus-4o的輸出,26.9%的情況下認(rèn)為兩個模型表現(xiàn)相當(dāng),只有21.2%的情況下更傾向于Janus-Pro的結(jié)果。這個結(jié)果清楚地表明,ShareGPT-4o-Image數(shù)據(jù)集確實(shí)幫助模型生成了更符合人類審美和期望的圖像。

在圖像編輯任務(wù)中,Janus-4o的優(yōu)勢更加明顯。人類評估者在51.4%的情況下選擇了Janus-4o,28.6%的情況下認(rèn)為結(jié)果相當(dāng),只有20.0%的情況下偏好其他模型。這個結(jié)果特別有意義,因?yàn)閳D像編輯通常需要更精細(xì)的控制和更深入的圖像理解,人類評估者的偏好充分證明了Janus-4o在這方面的進(jìn)步。

**六、技術(shù)創(chuàng)新的深層意義**

Janus-4o的成功不僅僅是一個模型性能的提升,更重要的是它證明了一種全新的技術(shù)發(fā)展路徑的可行性。在AI圖像生成這個被大公司壟斷的領(lǐng)域,開源社區(qū)終于找到了一條可以與商業(yè)巨頭抗衡的道路。

這種"蒸餾學(xué)習(xí)"的方法特別值得關(guān)注。傳統(tǒng)的模型訓(xùn)練需要從零開始,就像從頭學(xué)習(xí)一門技藝,需要大量的時間、數(shù)據(jù)和計算資源。而Janus-4o采用的方法更像是"師傅帶徒弟",通過觀察和模仿已有的優(yōu)秀作品來快速提升技能。這種方法不僅效率更高,而且對計算資源的要求相對較低,為更多研究團(tuán)隊參與前沿AI研究降低了門檻。

更重要的是,這項研究展示了開源社區(qū)的強(qiáng)大力量。ShareGPT-4o-Image數(shù)據(jù)集和Janus-4o模型都將完全開源,任何研究者都可以免費(fèi)使用和改進(jìn)。這種開放的態(tài)度形成了與封閉商業(yè)模型截然不同的發(fā)展生態(tài),有望推動整個領(lǐng)域的快速進(jìn)步。

從技術(shù)架構(gòu)的角度來看,Janus-4o的設(shè)計理念也代表了未來多模態(tài)AI系統(tǒng)的一個重要方向。它將圖像理解和圖像生成統(tǒng)一在一個模型中,避免了傳統(tǒng)方法中需要多個獨(dú)立模塊協(xié)作的復(fù)雜性。這種端到端的設(shè)計不僅簡化了系統(tǒng)架構(gòu),也提供了更好的性能和更靈活的應(yīng)用可能性。

**七、應(yīng)用前景與社會影響**

Janus-4o的技術(shù)突破為AI圖像生成的普及應(yīng)用開辟了新的可能性。在內(nèi)容創(chuàng)作領(lǐng)域,設(shè)計師和藝術(shù)家將能夠使用這種強(qiáng)大的工具來快速實(shí)現(xiàn)創(chuàng)意想法,無論是概念草圖的生成還是現(xiàn)有作品的精細(xì)修改。教育培訓(xùn)行業(yè)也將受益匪淺,教師可以輕松創(chuàng)建各種教學(xué)輔助圖像,讓抽象概念變得更加直觀易懂。

在商業(yè)應(yīng)用方面,電商平臺可以利用這種技術(shù)來快速生成產(chǎn)品展示圖像,根據(jù)不同的營銷需求調(diào)整產(chǎn)品的展示場景和風(fēng)格。廣告公司也能夠更高效地制作各種宣傳素材,大大降低視覺內(nèi)容的制作成本和周期。

科研領(lǐng)域同樣會迎來新的機(jī)遇。研究人員可以使用Janus-4o來生成各種實(shí)驗(yàn)場景的模擬圖像,輔助數(shù)據(jù)分析和結(jié)果展示。在醫(yī)學(xué)影像、地理信息系統(tǒng)、考古學(xué)等需要大量視覺材料的學(xué)科中,這種技術(shù)將成為重要的研究工具。

然而,這種技術(shù)的普及也帶來了一些需要認(rèn)真考慮的社會問題。生成圖像的真實(shí)性問題是其中最重要的一個。當(dāng)AI生成的圖像質(zhì)量足夠高時,普通人很難區(qū)分真實(shí)照片和AI生成內(nèi)容,這可能會被惡意利用來制造虛假信息或進(jìn)行欺詐活動。

研究團(tuán)隊在論文中特別強(qiáng)調(diào)了對這些問題的重視。他們指出,雖然訓(xùn)練過程中努力確保了屬性的多樣性,比如在人物描述中包含了各種種族、年齡和性別的均衡表示,但由于基礎(chǔ)訓(xùn)練數(shù)據(jù)來自GPT-4o-Image,仍然可能繼承一些潛在的偏見。這提醒我們,技術(shù)進(jìn)步必須伴隨著對公平性和道德性的持續(xù)關(guān)注。

**八、開源貢獻(xiàn)與未來展望**

ShareGPT-4o-Image項目的開源策略代表了AI研究領(lǐng)域的一個重要趨勢。研究團(tuán)隊不僅公開了完整的數(shù)據(jù)集,還提供了詳細(xì)的技術(shù)文檔和訓(xùn)練代碼,確保其他研究者能夠復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果并在此基礎(chǔ)上進(jìn)行進(jìn)一步創(chuàng)新。這種開放的態(tài)度打破了技術(shù)壁壘,讓世界各地的研究團(tuán)隊都能夠參與到前沿AI技術(shù)的開發(fā)中來。

數(shù)據(jù)集的構(gòu)建過程也體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度。研究團(tuán)隊詳細(xì)記錄了每個步驟的設(shè)計理念和技術(shù)細(xì)節(jié),包括屬性空間的定義、采樣策略的選擇、質(zhì)量控制的標(biāo)準(zhǔn)等。這些信息不僅幫助其他研究者理解和使用數(shù)據(jù)集,也為類似項目提供了寶貴的參考經(jīng)驗(yàn)。

展望未來,這項研究為AI圖像生成技術(shù)的發(fā)展指明了幾個重要方向。首先是模型規(guī)模的進(jìn)一步擴(kuò)大,研究團(tuán)隊表示正在探索將類似的方法應(yīng)用到更大規(guī)模的模型上,期望獲得更好的性能表現(xiàn)。其次是應(yīng)用領(lǐng)域的拓展,除了通用圖像生成,專業(yè)領(lǐng)域如醫(yī)學(xué)影像、工程設(shè)計等也有巨大的應(yīng)用潛力。

多模態(tài)能力的增強(qiáng)也是一個重要發(fā)展方向。目前的Janus-4o主要處理文本和圖像兩種模態(tài),未來可能會擴(kuò)展到音頻、視頻等其他媒體形式,構(gòu)建真正的多媒體AI助手。這種發(fā)展將使AI系統(tǒng)能夠更自然地與人類進(jìn)行交互,提供更豐富的創(chuàng)作和表達(dá)可能性。

技術(shù)民主化是這項研究最重要的貢獻(xiàn)之一。通過證明相對較小的研究團(tuán)隊也能夠在前沿AI技術(shù)方面取得重要突破,Janus-4o為全球的研究者和開發(fā)者注入了信心。這種技術(shù)路徑的成功將鼓勵更多團(tuán)隊投入到開源AI研究中,形成與商業(yè)巨頭不同的、更加開放和協(xié)作的技術(shù)生態(tài)系統(tǒng)。

說到底,ShareGPT-4o-Image和Janus-4o的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身的進(jìn)步。它們代表了一種新的AI發(fā)展模式:通過開放合作而不是封閉競爭來推動技術(shù)進(jìn)步,通過共享資源而不是壟斷技術(shù)來促進(jìn)創(chuàng)新。這種模式不僅有助于加速技術(shù)發(fā)展,也確保了AI技術(shù)的進(jìn)步能夠惠及更廣泛的人群。

當(dāng)我們站在AI圖像生成技術(shù)快速發(fā)展的節(jié)點(diǎn)上回望這項研究時,我們看到的不僅是一個優(yōu)秀的技術(shù)成果,更是開源社區(qū)力量的有力證明。正如研究團(tuán)隊在論文結(jié)尾所展望的那樣,他們希望這項工作能夠激發(fā)更多研究者投入到照片級、指令對齊的圖像生成研究中來。從目前的反響來看,這個愿望正在逐步實(shí)現(xiàn)。

對于關(guān)心AI技術(shù)發(fā)展的普通讀者來說,這項研究傳遞了一個重要信息:最先進(jìn)的AI技術(shù)不應(yīng)該也不會永遠(yuǎn)被少數(shù)公司壟斷。通過巧妙的方法設(shè)計、嚴(yán)謹(jǐn)?shù)目茖W(xué)研究和開放的合作精神,學(xué)術(shù)界和開源社區(qū)完全有能力創(chuàng)造出不遜于商業(yè)產(chǎn)品的技術(shù)成果。而這樣的技術(shù)進(jìn)步,最終將讓我們所有人受益。

想要深入了解技術(shù)細(xì)節(jié)或者嘗試使用這些工具的讀者,可以訪問項目的GitHub頁面(https://github.com/FreedomIntelligence/ShareGPT-4o-Image),那里有完整的代碼、數(shù)據(jù)和使用說明。這個項目的開源特性意味著任何有興趣的人都可以參與到這項激動人心的技術(shù)發(fā)展中來。

Q&A

Q1:ShareGPT-4o-Image是什么?它解決了什么問題? A:ShareGPT-4o-Image是香港中文大學(xué)(深圳)團(tuán)隊創(chuàng)建的AI圖像生成數(shù)據(jù)集,包含91000個高質(zhì)量樣本。它解決了先進(jìn)AI圖像生成技術(shù)被大公司壟斷的問題,讓開源社區(qū)也能開發(fā)出媲美GPT-4o水平的圖像生成模型,推動技術(shù)民主化。

Q2:Janus-4o相比前代模型有什么突破性改進(jìn)? A:Janus-4o最大的突破是新增了圖像編輯能力,不僅能根據(jù)文字生成圖像,還能根據(jù)指令修改現(xiàn)有圖像。在文字生成圖像任務(wù)上比前代Janus-Pro提升了4分,更重要的是僅用91000個樣本就實(shí)現(xiàn)了強(qiáng)大的圖像編輯功能,訓(xùn)練效率極高。

Q3:這項技術(shù)會不會很快普及到日常應(yīng)用中? A:技術(shù)普及需要時間,但前景光明。由于Janus-4o完全開源且訓(xùn)練成本相對較低(僅需6小時),將大大降低AI圖像生成技術(shù)的應(yīng)用門檻。未來在內(nèi)容創(chuàng)作、電商展示、教育培訓(xùn)等領(lǐng)域都有廣泛應(yīng)用潛力,但需要注意防范生成內(nèi)容的濫用風(fēng)險。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-