av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ViStoryBench:一場(chǎng)可視化故事世界的大冒險(xiǎn)——StepFun團(tuán)隊(duì)打造全面評(píng)估標(biāo)準(zhǔn),幫你判斷AI是否真懂講故事

ViStoryBench:一場(chǎng)可視化故事世界的大冒險(xiǎn)——StepFun團(tuán)隊(duì)打造全面評(píng)估標(biāo)準(zhǔn),幫你判斷AI是否真懂講故事

2025-07-07 17:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:38 ? 科技行者

在當(dāng)今人工智能蓬勃發(fā)展的時(shí)代,一個(gè)令人著迷的研究領(lǐng)域正悄然興起——故事可視化。這項(xiàng)由上海科技大學(xué)、StepFun、AIGC Research和西湖大學(xué)AGI實(shí)驗(yàn)室聯(lián)合推出的研究成果于2025年5月發(fā)表,主要由Cailin Zhuang、Ailin Huang、Wei Cheng等多位研究者共同完成,由Zhewei Huang、Gang Yu和Chi Zhang擔(dān)任通訊作者。

想象一下,你給AI講了一個(gè)關(guān)于小兔子不肯睡覺(jué)的故事,還給它看了小兔子和大兔子的照片。神奇的是,AI能根據(jù)你的故事和這些參考圖片,生成一系列連貫的畫(huà)面,展現(xiàn)小兔子抓著大兔子耳朵不放的可愛(ài)場(chǎng)景。這就是故事可視化的魅力所在——將文字?jǐn)⑹鲛D(zhuǎn)化為視覺(jué)連貫的圖像序列,讓故事更加生動(dòng)、形象。

然而,評(píng)價(jià)故事可視化的質(zhì)量并不像評(píng)價(jià)單張圖片那樣簡(jiǎn)單。這就好比評(píng)價(jià)一部電影不能只看某個(gè)鏡頭是否精彩,還要看整個(gè)故事是否連貫、角色是否一致、情節(jié)是否合理。正是看到了這一挑戰(zhàn),研究團(tuán)隊(duì)推出了名為"ViStoryBench"的評(píng)估基準(zhǔn),專(zhuān)門(mén)用于全面評(píng)估故事可視化模型的性能。

這個(gè)評(píng)估基準(zhǔn)就像是一個(gè)嚴(yán)格而公正的評(píng)委,它不僅看重生成圖像的美觀度和多樣性,還特別關(guān)注角色的一致性——畢竟,如果故事中的小公主突然變成了小王子,那可就糟糕了。ViStoryBench收集了各種類(lèi)型的故事和藝術(shù)風(fēng)格,包括喜劇、恐怖、動(dòng)漫和3D渲染等,確保評(píng)估的全面性。此外,它還囊括了單一主角和多主角的故事,測(cè)試模型保持角色一致性的能力,以及處理復(fù)雜情節(jié)和世界觀構(gòu)建的能力。

研究團(tuán)隊(duì)不僅提供了多維度的評(píng)估指標(biāo),還對(duì)市場(chǎng)上超過(guò)20種方法進(jìn)行了廣泛測(cè)試,包括18種主要方法及其變體。他們分析了用戶(hù)研究與自動(dòng)評(píng)估指標(biāo)之間的一致性,揭示了不同模型的特點(diǎn)和局限。

如果你對(duì)故事可視化感興趣,這個(gè)研究可以幫助你更好地理解這一領(lǐng)域的發(fā)展現(xiàn)狀和挑戰(zhàn)。接下來(lái),讓我們一起深入探索ViStoryBench的世界,看看它如何評(píng)判AI講故事的能力。

一、故事可視化:讓AI變身故事畫(huà)家

在我們開(kāi)始探索ViStoryBench之前,先來(lái)了解一下什么是故事可視化。想象你是一位童話(huà)作家,寫(xiě)了一個(gè)關(guān)于小紅帽的故事。現(xiàn)在,你希望為這個(gè)故事配上插圖,但你并不擅長(zhǎng)繪畫(huà)。這時(shí),故事可視化技術(shù)就派上用場(chǎng)了——你只需要提供故事文本和對(duì)小紅帽、大灰狼等角色的描述和參考圖片,AI就能為你生成一系列連貫的插圖,展現(xiàn)故事的發(fā)展過(guò)程。

近年來(lái),隨著生成模型的進(jìn)步,故事可視化技術(shù)取得了顯著發(fā)展。研究者們開(kāi)發(fā)了各種方法來(lái)提高圖像序列的視覺(jué)一致性和跨模態(tài)序列的連貫性。比如UNO結(jié)合了漸進(jìn)式跨模態(tài)對(duì)齊和旋轉(zhuǎn)位置編碼,實(shí)現(xiàn)了高一致性的多主體圖像合成;SeedStory利用多模態(tài)大語(yǔ)言模型和SDXL進(jìn)行故事續(xù)寫(xiě);StoryGen采用自回歸條件對(duì)歷史圖像/文本進(jìn)行建模。還有一些無(wú)需訓(xùn)練的方法,如StoryDiffusion(一致的自注意力)和Story-Adapter(迭代細(xì)化)改進(jìn)了長(zhǎng)程連貫性。TheaterGen則使用大語(yǔ)言模型進(jìn)行角色狀態(tài)跟蹤。

除了圖像生成,一些研究還延伸到了視頻生成和3D領(lǐng)域。例如,MovieAgent使用多智能體推理同步生成敘事、音頻和字幕;AnimDirector通過(guò)大語(yǔ)言模型將提示擴(kuò)展為故事序列;MM-StoryAgent整合角色庫(kù)實(shí)現(xiàn)多場(chǎng)景視頻生成;DreamRunner通過(guò)檢索增強(qiáng)的動(dòng)作適應(yīng)創(chuàng)建長(zhǎng)形式、多動(dòng)作、多場(chǎng)景故事視頻。

商業(yè)平臺(tái)如Morphic Studio、MOKI和豆包也開(kāi)始加速故事可視化從研究到實(shí)際應(yīng)用的轉(zhuǎn)變。不過(guò),當(dāng)前研究仍面臨多圖像連貫性維護(hù)、長(zhǎng)程依賴(lài)建模、精細(xì)控制能力和與復(fù)雜文本提示對(duì)齊等挑戰(zhàn)。

二、ViStoryBench:全方位評(píng)估故事可視化的"裁判"

想象一下,如果你是一位評(píng)審員,需要評(píng)判不同廚師制作的一道復(fù)雜菜肴。你不僅要看成品的外觀和色彩,還要品嘗味道、評(píng)價(jià)食材的新鮮度、考量制作過(guò)程的復(fù)雜性等多個(gè)方面。同樣,評(píng)估故事可視化系統(tǒng)也需要一個(gè)全面的標(biāo)準(zhǔn),這就是ViStoryBench的意義所在。

ViStoryBench實(shí)際上是一個(gè)包含多種工具和數(shù)據(jù)的綜合評(píng)估系統(tǒng)。它首先明確定義了故事可視化任務(wù):給定一個(gè)故事腳本,以及n個(gè)角色的外觀描述T1, T2, ..., Tn和對(duì)應(yīng)的圖像S1, S2, ..., Sn,再加上m個(gè)鏡頭描述(包含場(chǎng)景描述、情節(jié)對(duì)應(yīng)、鏡頭構(gòu)圖設(shè)計(jì)、出場(chǎng)角色和靜態(tài)鏡頭描述),系統(tǒng)需要生成一系列圖像I1...Im,忠實(shí)地表現(xiàn)這些鏡頭描述,并與提供的角色信息保持一致。

為了構(gòu)建這個(gè)評(píng)估基準(zhǔn),研究團(tuán)隊(duì)收集了80個(gè)故事片段,涵蓋從電影和電視劇劇本到文學(xué)杰作、世界各地傳說(shuō)、小說(shuō)和圖畫(huà)書(shū)等多種來(lái)源。對(duì)于過(guò)長(zhǎng)的故事,他們使用大語(yǔ)言模型輔助人類(lèi)進(jìn)行總結(jié),使每個(gè)故事都保持在數(shù)百字的長(zhǎng)度。然后,他們將故事轉(zhuǎn)換為包含角色描述和分鏡頭腳本的劇本。

角色參考圖像方面,研究團(tuán)隊(duì)為每個(gè)角色手動(dòng)收集了與描述一致的圖像。他們確保同一故事中的角色圖像風(fēng)格保持一致。在總共344個(gè)角色中,一小部分角色的參考圖像是使用SDXL生成的??傮w來(lái)說(shuō),數(shù)據(jù)集包含344個(gè)角色和509張角色參考圖像。

評(píng)估指標(biāo)是ViStoryBench的核心部分,包括以下幾個(gè)方面:

首先是跨相似性和自相似性評(píng)估。這就像檢查一個(gè)人的多張照片,既要確認(rèn)照片中的人確實(shí)是本人(跨相似性,與參考圖像的相似度),又要確保不同照片中的人看起來(lái)一致(自相似性,生成圖像之間的一致性)。研究團(tuán)隊(duì)使用了多種技術(shù)工具,如Grounding DINO(一種開(kāi)放集目標(biāo)檢測(cè)器)和ArcFace或CLIP進(jìn)行特征提取,計(jì)算生成圖像中角色與參考圖像的相似度,以及生成圖像序列中角色的一致性。

其次是提示一致性評(píng)估。這就像檢查一個(gè)故事的插圖是否忠實(shí)反映了文字描述。研究團(tuán)隊(duì)使用GPT-4.1來(lái)評(píng)估生成圖像與分鏡頭描述的一致性,包括角色交互動(dòng)作、拍攝方法、靜態(tài)鏡頭描述和單個(gè)角色動(dòng)作四個(gè)方面。此外,他們還專(zhuān)門(mén)計(jì)算了出場(chǎng)角色數(shù)量匹配得分,因?yàn)樵S多模型在生成正確的角色集合方面存在困難。

第三是復(fù)制粘貼檢測(cè)。一些生成模型可能會(huì)簡(jiǎn)單地復(fù)制粘貼參考圖像中的角色,而不是創(chuàng)造性地生成與情境相符的角色圖像。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"復(fù)制粘貼程度"指標(biāo)來(lái)衡量這種現(xiàn)象。

最后是圖像質(zhì)量評(píng)估。研究團(tuán)隊(duì)計(jì)算了所有生成結(jié)果的美學(xué)質(zhì)量得分和多樣性得分(使用Inception Score)。

除了自動(dòng)評(píng)估指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了用戶(hù)研究,邀請(qǐng)參與者從環(huán)境一致性、角色識(shí)別一致性和主觀美學(xué)三個(gè)維度評(píng)估生成結(jié)果。這就像讓普通觀眾評(píng)價(jià)一部電影,看它在視覺(jué)效果、角色塑造和整體藝術(shù)性上的表現(xiàn)如何。

三、實(shí)驗(yàn)設(shè)置:公平比較不同方法的"競(jìng)技場(chǎng)"

為了確保評(píng)估的全面性和公正性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)周密的實(shí)驗(yàn)環(huán)境,就像一個(gè)公平的競(jìng)技場(chǎng),讓不同的故事可視化方法在相同條件下展示各自的能力。

ViStoryBench分為兩個(gè)版本:完整版和精簡(jiǎn)版(ViStoryBench-lite)。精簡(jiǎn)版是完整版的四分之一子集,通過(guò)手動(dòng)策劃,確保文本風(fēng)格和角色參考圖像風(fēng)格的分布與原版相似。具體來(lái)說(shuō),精簡(jiǎn)版包含20個(gè)故事,角色參考包括36個(gè)動(dòng)畫(huà)角色、41個(gè)真實(shí)人物和4個(gè)非人類(lèi)實(shí)體。各類(lèi)角色的比例與完整集合相似。

在主要實(shí)驗(yàn)中,研究團(tuán)隊(duì)評(píng)估了多種圖像和視頻生成方法。他們開(kāi)發(fā)了一個(gè)簡(jiǎn)單的復(fù)制粘貼基線方法,即自動(dòng)將每個(gè)鏡頭的出場(chǎng)角色參考圖像粘貼到1080p畫(huà)布上。對(duì)于圖像生成,他們?cè)u(píng)估了StoryDiffusion、Story-Adapter、StoryGen、UNO、TheaterGen和SEED-Story等方法。對(duì)于視頻生成,他們測(cè)試了Vlogger、MovieAgent、Anim-Director和MM-StoryAgent等方法。

在故事生成領(lǐng)域,許多封閉源代碼的商業(yè)軟件能提供相當(dāng)不錯(cuò)的結(jié)果。但由于資源和其他原因限制,研究團(tuán)隊(duì)只能在ViStoryBench-lite基準(zhǔn)上報(bào)告這些軟件的結(jié)果。他們也包括了一些開(kāi)源方法作為基線。所報(bào)告的結(jié)果來(lái)自這些軟件在2025年5月的版本,未來(lái)的結(jié)果可能會(huì)有所不同。

由于不同方法或軟件在問(wèn)題定義上存在差異,研究團(tuán)隊(duì)討論了詳細(xì)的適應(yīng)過(guò)程。對(duì)于那些不生成圖像作為中間結(jié)果的視頻生成方法,他們選擇了每個(gè)鏡頭相關(guān)視頻的第一幀。大多數(shù)方法或軟件被要求生成1080p分辨率的結(jié)果,盡管也有例外,如Gemini,其圖像大小不完全可控。

此外,研究團(tuán)隊(duì)提供了一個(gè)持續(xù)維護(hù)的排行榜網(wǎng)頁(yè),鼓勵(lì)社區(qū)內(nèi)強(qiáng)有力的競(jìng)爭(zhēng)。表中的最終排名是通過(guò)平均每個(gè)指標(biāo)的排名索引確定的,確保對(duì)所有指標(biāo)的平衡考慮。一些商業(yè)軟件測(cè)試的結(jié)果標(biāo)有星號(hào)。由于內(nèi)容政策限制,某些故事無(wú)法正常生成結(jié)果。因此,他們只考慮了成功生成結(jié)果的數(shù)據(jù)的平均值,這引入了一些差異。

為了評(píng)估生成圖像的一致性和美學(xué)質(zhì)量,研究團(tuán)隊(duì)還進(jìn)行了用戶(hù)研究,參與者從三個(gè)維度評(píng)估了結(jié)果:環(huán)境一致性(關(guān)注相同環(huán)境描述下的場(chǎng)景是否視覺(jué)上連貫)、角色識(shí)別一致性(評(píng)估主要角色在整個(gè)故事中的可識(shí)別性和連貫性)以及主觀美學(xué)(評(píng)估可視化的整體藝術(shù)吸引力、細(xì)節(jié)豐富度和講故事效果)。

四、評(píng)估結(jié)果:誰(shuí)是故事可視化的"冠軍"?

經(jīng)過(guò)全面評(píng)估,不同的故事可視化方法展現(xiàn)出各自的優(yōu)勢(shì)和局限。就像體育比賽中的選手各有所長(zhǎng),有些在速度上領(lǐng)先,有些在技巧上出眾,有些則在耐力上表現(xiàn)突出。

首先,研究團(tuán)隊(duì)發(fā)現(xiàn),在故事可視化任務(wù)中,全面的評(píng)估指標(biāo)極其重要。舉個(gè)例子,簡(jiǎn)單的復(fù)制粘貼基線在許多指標(biāo)上取得了最佳結(jié)果,但其對(duì)齊得分明顯較低。雖然Inception Score通??梢院饬繄D像生成的質(zhì)量和多樣性,但僅通過(guò)檢查Inception Score指標(biāo)很難比較不同模型。當(dāng)只使用文本作為輸入時(shí),StoryDiffusion和Story-Adapter在Inception Score和美學(xué)質(zhì)量方面表現(xiàn)出色。然而,僅依靠文本輸入顯然無(wú)法生成與角色參考圖像的特征和風(fēng)格相似的結(jié)果。

近期發(fā)布的UNO在開(kāi)源方法中取得了全面領(lǐng)先的位置。它在用戶(hù)評(píng)價(jià)的所有三個(gè)類(lèi)別中都獲得了良好的好評(píng)度。它在每個(gè)量化指標(biāo)中都取得了相對(duì)領(lǐng)先的地位。

商業(yè)軟件展現(xiàn)出優(yōu)秀的綜合能力。其中,豆包和GPT-4o在提示一致性能力(對(duì)齊得分)方面表現(xiàn)突出。這可能歸因于它們集成了擁有大量參數(shù)的大語(yǔ)言模型。此外,GPT-4o在選擇出場(chǎng)角色集合方面表現(xiàn)出最高的準(zhǔn)確性。AIbrm非常擅長(zhǎng)利用角色參考圖像,將描繪的角色特征納入其生成結(jié)果中。在這方面,表現(xiàn)最好的開(kāi)源項(xiàng)目是UNO,但AIbrm明顯優(yōu)于它。

使用自動(dòng)評(píng)估指標(biāo),可以很容易地理解模型的改進(jìn)空間或找到好的/差的例子。例如,早期工作StoryGen在生成圖像的多樣性和質(zhì)量方面面臨問(wèn)題。由擴(kuò)散模型引入的圖像先驗(yàn)提升了后續(xù)方法在Inception Score和美學(xué)質(zhì)量方面的表現(xiàn)。AIbrm是一個(gè)針對(duì)故事可視化場(chǎng)景定制的應(yīng)用,與通用應(yīng)用如GPT-4o相比,它提供了更準(zhǔn)確的角色特征生成。然而,AIbrm理解文本指令的能力仍需改進(jìn)。通過(guò)自動(dòng)評(píng)估指標(biāo),研究團(tuán)隊(duì)可以輕松識(shí)別一些好的/差的生成結(jié)果。

研究團(tuán)隊(duì)的量化指標(biāo)與定性觀察表現(xiàn)出一致性。對(duì)于Story-Adapter,自動(dòng)評(píng)估指標(biāo)和人類(lèi)評(píng)估之間的評(píng)分一致性特別明顯:在文本模式下(其原生設(shè)置),整體質(zhì)量評(píng)分(scale=5)系統(tǒng)地超過(guò)了基線(scale=0),這與理論預(yù)期一致;當(dāng)使用圖像參考時(shí),scale=0在CIDS和CSD的跨相似性上比scale=5取得更高分?jǐn)?shù),但在自相似性上表現(xiàn)較差。

五、ViStoryBench如何構(gòu)建:打造全面評(píng)估體系的幕后故事

ViStoryBench的構(gòu)建過(guò)程就像精心設(shè)計(jì)一場(chǎng)綜合測(cè)試,需要考慮各種不同的場(chǎng)景和挑戰(zhàn)。研究團(tuán)隊(duì)首先明確了故事可視化任務(wù)的定義,然后圍繞這一定義收集和整理了豐富多樣的數(shù)據(jù)。

在故事和劇本方面,研究團(tuán)隊(duì)追求多樣性。他們手動(dòng)收集了80個(gè)故事片段,涵蓋電影和電視劇劇本、文學(xué)杰作、世界各地的傳說(shuō)、小說(shuō)和圖畫(huà)書(shū)等多種來(lái)源。對(duì)于過(guò)長(zhǎng)的故事,他們讓大語(yǔ)言模型輔助人類(lèi)進(jìn)行總結(jié),使每個(gè)故事都保持在數(shù)百字的長(zhǎng)度。然后,他們將故事轉(zhuǎn)換為包含角色描述和分鏡頭腳本的劇本,在這個(gè)過(guò)程中也使用了大語(yǔ)言模型的幫助。

這些故事包括13個(gè)民間故事、10個(gè)愛(ài)情故事、4個(gè)懸疑犯罪故事、3個(gè)恐怖故事、6個(gè)歷史故事、10個(gè)奇幻故事、7個(gè)科幻故事、3個(gè)戰(zhàn)爭(zhēng)故事、10個(gè)關(guān)于社會(huì)生活的故事、3個(gè)冒險(xiǎn)生存故事和11個(gè)童話(huà)故事。整個(gè)數(shù)據(jù)集包含1317個(gè)鏡頭,每個(gè)故事包含4到30個(gè)鏡頭,平均每個(gè)故事16.5個(gè)鏡頭。為了評(píng)估更廣泛的方法,數(shù)據(jù)集中所有與測(cè)試相關(guān)的文本都提供了英文和中文版本。對(duì)于僅支持中文或在中文輸入下表現(xiàn)明顯更好的方法,研究團(tuán)隊(duì)使用中文作為輸入,而對(duì)于其他方法則使用英文作為輸入。

每個(gè)單獨(dú)的鏡頭包括以下描述:場(chǎng)景描述、情節(jié)對(duì)應(yīng)、出場(chǎng)角色、靜態(tài)鏡頭描述和鏡頭構(gòu)圖設(shè)計(jì)。

在角色參考圖像方面,對(duì)于大多數(shù)知名故事,角色參考圖像來(lái)自相關(guān)的視覺(jué)作品。對(duì)于其余的故事,研究團(tuán)隊(duì)要么從具有類(lèi)似設(shè)置的電影或電視劇中檢索截圖(16個(gè)故事),要么讓SDXL生成動(dòng)畫(huà)角色圖像(7個(gè)故事)。數(shù)據(jù)集包含總共344個(gè)角色,其中包括190個(gè)真實(shí)人類(lèi)、135個(gè)虛擬人類(lèi)和19個(gè)非人類(lèi)。其中,有210個(gè)男性、108個(gè)女性和26個(gè)無(wú)性別或非二元性別的角色。每個(gè)角色有1到10張圖像,其中89個(gè)角色有多于一張圖像。整個(gè)數(shù)據(jù)集由509張參考圖像組成。

研究團(tuán)隊(duì)將所有80個(gè)故事根據(jù)主要角色的圖像類(lèi)別分為兩類(lèi):真實(shí)故事和非真實(shí)故事。其中有39個(gè)真實(shí)故事和41個(gè)非真實(shí)故事。這種分類(lèi)用于隨后評(píng)估不同工作之間結(jié)果的差異。

在評(píng)估指標(biāo)的計(jì)算過(guò)程中,研究團(tuán)隊(duì)簡(jiǎn)要介紹了使用的模型和工具。Grounding DINO是一個(gè)開(kāi)放集對(duì)象檢測(cè)器,可以根據(jù)文本描述檢測(cè)圖像中的對(duì)象。研究團(tuán)隊(duì)利用Grounding DINO裁剪出與特定描述匹配的角色邊界框。對(duì)于裁剪出的角色圖像,如果內(nèi)容是真實(shí)角色,他們使用ArcFace進(jìn)行特征提?。环駝t,使用CLIP進(jìn)行特征提取。這兩種特征提取方法都為每個(gè)角色生成一個(gè)512維的特征向量。在提取整個(gè)圖像的風(fēng)格特征時(shí),他們使用CSD提供的模型,這是一個(gè)在大型風(fēng)格圖像數(shù)據(jù)集上微調(diào)的CLIP模型。

此外,研究團(tuán)隊(duì)利用Inception Score(IS)和Aesthetic Predictor V2.5來(lái)評(píng)估多樣性和美學(xué)質(zhì)量。IS根據(jù)清晰度和多樣性評(píng)估一批生成的圖像。Aesthetic Predictor V2.5是一個(gè)基于SigLIP的預(yù)測(cè)器,在1到10的量表上評(píng)估圖像的美學(xué)。它傾向于給模糊、嘈雜或被認(rèn)為不太具有視覺(jué)吸引力的圖像較低的分?jǐn)?shù)。得分為5.5或更高的圖像被認(rèn)為具有出色的質(zhì)量。

六、研究局限性與社會(huì)影響:故事可視化的"雙刃劍"

盡管ViStoryBench提供了全面的評(píng)估框架,但研究團(tuán)隊(duì)也坦誠(chéng)認(rèn)識(shí)到了它的一些局限性和潛在的社會(huì)影響。

首先,數(shù)據(jù)集中的一些圖像來(lái)自流行電影、電視劇、動(dòng)畫(huà)等。因此,某些指標(biāo)可能會(huì)過(guò)擬合到這些特定數(shù)據(jù),潛在導(dǎo)致這些指標(biāo)的操縱或"黑客攻擊"。其次,數(shù)據(jù)集包括中文和英文版本。雖然研究團(tuán)隊(duì)為每種方法或軟件選擇了適當(dāng)?shù)恼Z(yǔ)言,但由于指令語(yǔ)言的差異,生成結(jié)果的質(zhì)量可能會(huì)有所不同。研究團(tuán)隊(duì)沒(méi)有考慮語(yǔ)言差異導(dǎo)致的生成質(zhì)量差異。第三,由于缺乏準(zhǔn)確的面板分割方法,該工作無(wú)法評(píng)估涉及在單個(gè)圖像中生成多個(gè)面板的漫畫(huà)生成/漫畫(huà)生成任務(wù)的結(jié)果。此外,研究中沒(méi)有討論每種方法的推理速度。對(duì)于故事視頻生成方法,仍有一些視頻相關(guān)的問(wèn)題需要關(guān)注,如幀一致性或質(zhì)量。研究團(tuán)隊(duì)沒(méi)有專(zhuān)門(mén)為這方面設(shè)計(jì)測(cè)試。

從社會(huì)影響角度看,研究團(tuán)隊(duì)希望故事可視化模型能成為更強(qiáng)大的教育和創(chuàng)意工具,并有助于文化遺產(chǎn)的保存和推廣。在收集故事時(shí),他們努力選擇來(lái)自各種文化和地區(qū)的敘事。盡管有這些努力,生成模型仍面臨克服刻板印象和數(shù)據(jù)偏見(jiàn)的挑戰(zhàn)。至關(guān)重要的是,生成模型不應(yīng)被用作創(chuàng)建虛假內(nèi)容的工具,這需要政策制定者和技術(shù)專(zhuān)家之間的合作。

七、結(jié)論:開(kāi)啟故事可視化評(píng)估的新篇章

ViStoryBench就像是為故事可視化領(lǐng)域打造的一把"尺子",它不僅能測(cè)量不同方法的表現(xiàn),還能指明未來(lái)研究的方向。通過(guò)提供多樣化的故事類(lèi)型、角色參考和全面的評(píng)估指標(biāo),ViStoryBench使研究者能夠嚴(yán)格評(píng)估和比較各種故事可視化模型。

這個(gè)基準(zhǔn)測(cè)試的獨(dú)特之處在于它的全面性和多維度評(píng)估。它不僅關(guān)注生成圖像的質(zhì)量和多樣性,還特別重視角色一致性、提示遵循度和視覺(jué)連貫性等關(guān)鍵方面。這就像評(píng)價(jià)一部電影不僅看特效華麗程度,還要看故事是否連貫、角色是否立體、情節(jié)是否合理。

通過(guò)對(duì)多種方法的測(cè)試,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的模式。例如,商業(yè)軟件通常在提示遵循方面表現(xiàn)出色,可能是因?yàn)樗鼈兗闪藚?shù)量龐大的大語(yǔ)言模型。而最新的開(kāi)源方法UNO則展現(xiàn)出全面領(lǐng)先的能力,在多個(gè)指標(biāo)上表現(xiàn)突出。這些發(fā)現(xiàn)不僅幫助我們了解當(dāng)前技術(shù)的現(xiàn)狀,也為未來(lái)的研究提供了方向。

更重要的是,ViStoryBench的開(kāi)放性使得研究社區(qū)能夠持續(xù)評(píng)估和改進(jìn)故事可視化技術(shù)。研究團(tuán)隊(duì)發(fā)布了整個(gè)基準(zhǔn)測(cè)試、數(shù)據(jù)構(gòu)建流程中使用的提示詳情、每個(gè)模型的自動(dòng)和手動(dòng)評(píng)估結(jié)果,以及復(fù)現(xiàn)自動(dòng)評(píng)估結(jié)果所需的代碼。這種開(kāi)放態(tài)度將促進(jìn)該領(lǐng)域的協(xié)作和創(chuàng)新。

展望未來(lái),故事可視化技術(shù)有望在娛樂(lè)、教育和文化遺產(chǎn)保護(hù)等領(lǐng)域發(fā)揮重要作用。通過(guò)更準(zhǔn)確、一致地將文字故事轉(zhuǎn)化為視覺(jué)內(nèi)容,AI將幫助人類(lèi)更生動(dòng)地講述和傳播故事,促進(jìn)跨文化交流和理解。

ViStoryBench的出現(xiàn),就像是為這個(gè)領(lǐng)域提供了一個(gè)共同的語(yǔ)言和標(biāo)準(zhǔn),使研究者能夠更清晰地交流和比較他們的工作。它不僅推動(dòng)了技術(shù)的進(jìn)步,也有助于我們更深入地思考AI如何輔助人類(lèi)創(chuàng)造力的表達(dá)。正如故事本身連接了人類(lèi)的過(guò)去、現(xiàn)在和未來(lái),故事可視化技術(shù)也將連接人類(lèi)的想象和AI的創(chuàng)造力,開(kāi)啟講故事藝術(shù)的新篇章。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-