當(dāng)你走進(jìn)博物館,看到那些精美的古希臘陶器時(shí),是否曾經(jīng)好奇過(guò)它們的年代、制作工藝或者背后的故事?現(xiàn)在,一個(gè)由澳大利亞人工智能研究院、拉籌伯大學(xué)和AI Geeks團(tuán)隊(duì)共同完成的研究項(xiàng)目,正在用人工智能的力量來(lái)解答這些千年之謎。這項(xiàng)發(fā)表于2025年9月的研究論文(編號(hào)arXiv:2509.17191v1),由金超戈、程騰飛、吳彪、張澤宇等研究者領(lǐng)銜完成,他們開(kāi)發(fā)了一個(gè)名為VaseVL的智能系統(tǒng),專門用來(lái)分析古希臘陶器。
說(shuō)起古希臘陶器,它們可不僅僅是裝飾品那么簡(jiǎn)單。這些陶器就像是古代的"時(shí)間膠囊",記錄著古希臘人的生活方式、藝術(shù)風(fēng)格和歷史變遷。由于陶器材質(zhì)堅(jiān)固,即使經(jīng)過(guò)數(shù)千年也能保存下來(lái),成為考古學(xué)家了解古代文明最重要的線索之一。然而,要準(zhǔn)確識(shí)別一件陶器的年代、產(chǎn)地、制作工藝和藝術(shù)價(jià)值,需要專業(yè)考古學(xué)家多年的訓(xùn)練和經(jīng)驗(yàn)。
這就好比要成為一名資深的古董鑒定師,不僅要熟悉各個(gè)時(shí)期的藝術(shù)風(fēng)格,還要了解不同地區(qū)的制作技法,甚至要能從細(xì)微的裝飾圖案中推斷出具體的工匠或工作坊。對(duì)于普通人來(lái)說(shuō),這些知識(shí)門檻實(shí)在太高了。
研究團(tuán)隊(duì)意識(shí)到,現(xiàn)有的人工智能模型雖然在日常圖像識(shí)別方面表現(xiàn)出色,但面對(duì)這種需要深度專業(yè)知識(shí)的文化遺產(chǎn)分析任務(wù)時(shí),往往力不從心。就像讓一個(gè)只會(huì)識(shí)別現(xiàn)代汽車的系統(tǒng)去分析古代馬車一樣,缺乏專業(yè)背景知識(shí)的AI很難給出準(zhǔn)確的判斷。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了一種創(chuàng)新的"先學(xué)習(xí)再?gòu)?qiáng)化"的訓(xùn)練方法。他們首先讓AI系統(tǒng)通過(guò)大量的古希臘陶器圖片和專家標(biāo)注進(jìn)行基礎(chǔ)學(xué)習(xí),就像讓學(xué)生先背熟教科書一樣。然后,他們?cè)O(shè)計(jì)了一套特殊的"獎(jiǎng)勵(lì)機(jī)制",根據(jù)AI在不同類型問(wèn)題上的表現(xiàn)給予不同程度的獎(jiǎng)勵(lì)或懲罰,從而引導(dǎo)AI不斷改進(jìn)自己的判斷能力。
這種方法的巧妙之處在于,它能夠針對(duì)AI的薄弱環(huán)節(jié)進(jìn)行重點(diǎn)訓(xùn)練。比如,如果AI在判斷陶器年代方面表現(xiàn)較差,系統(tǒng)就會(huì)在這方面給予更多的訓(xùn)練強(qiáng)化,直到AI的表現(xiàn)達(dá)到專家水平。
一、構(gòu)建古希臘陶器的"百科全書"
要訓(xùn)練一個(gè)專業(yè)的陶器識(shí)別AI,首先需要一個(gè)足夠豐富和準(zhǔn)確的數(shù)據(jù)庫(kù)。研究團(tuán)隊(duì)與多家古希臘考古機(jī)構(gòu)、博物館和文化遺產(chǎn)中心合作,收集了超過(guò)31,773張古希臘陶器圖片,其中包含11,693張單視角圖片。這些圖片涵蓋了從完整陶器到碎片的各種狀態(tài),甚至包括陶器在原始埋藏環(huán)境中的照片。
這個(gè)數(shù)據(jù)庫(kù)的建設(shè)過(guò)程就像編寫一部古希臘陶器的"百科全書"。每一張圖片都配有詳細(xì)的文字描述,包括陶器的材質(zhì)構(gòu)成(比如紅陶或釉陶)、裝飾圖案(人物、動(dòng)物或抽象設(shè)計(jì))、考古背景(墓葬用途或儀式用途)等信息。這些描述都經(jīng)過(guò)了古希臘歷史學(xué)家和文化遺產(chǎn)專家的專業(yè)標(biāo)注,確保信息的準(zhǔn)確性。
更重要的是,研究團(tuán)隊(duì)為每個(gè)陶器樣本設(shè)計(jì)了八種不同類型的問(wèn)題,涵蓋了陶器分析的各個(gè)方面。這些問(wèn)題類型包括材質(zhì)識(shí)別(比如是紅陶還是黑陶)、制作技法(如紅繪技法或黑繪技法)、器型分類(如酒杯、儲(chǔ)物罐或祭祀用器)、產(chǎn)地推斷、年代判定、工匠歸屬、裝飾描述以及綜合信息查詢。
整個(gè)數(shù)據(jù)集包含了93,544對(duì)問(wèn)答,相當(dāng)于為每件陶器準(zhǔn)備了一份詳細(xì)的"身份檔案"。這種全面而系統(tǒng)的數(shù)據(jù)組織方式,為AI系統(tǒng)提供了學(xué)習(xí)古希臘陶器知識(shí)的完整教材。
二、讓AI學(xué)會(huì)"看懂"古陶器的秘密
訓(xùn)練AI識(shí)別古希臘陶器的過(guò)程,就像培養(yǎng)一名考古學(xué)徒弟一樣。研究團(tuán)隊(duì)采用了兩個(gè)階段的訓(xùn)練策略:基礎(chǔ)學(xué)習(xí)階段和強(qiáng)化提升階段。
在基礎(chǔ)學(xué)習(xí)階段,AI系統(tǒng)需要通過(guò)大量的圖片和問(wèn)答對(duì)來(lái)學(xué)習(xí)基礎(chǔ)知識(shí)。這個(gè)過(guò)程類似于讓學(xué)生反復(fù)練習(xí)教科書上的例題,通過(guò)不斷的重復(fù)來(lái)掌握基本的識(shí)別規(guī)律。AI需要學(xué)會(huì)從陶器的顏色、形狀、裝飾圖案等視覺(jué)特征中提取有用信息,并將這些信息與相應(yīng)的歷史文化知識(shí)聯(lián)系起來(lái)。
然而,僅僅依靠基礎(chǔ)學(xué)習(xí)還不夠。就像一個(gè)學(xué)生可能會(huì)死記硬背卻不會(huì)靈活運(yùn)用一樣,AI在基礎(chǔ)學(xué)習(xí)階段往往會(huì)出現(xiàn)"只見(jiàn)樹(shù)木不見(jiàn)森林"的問(wèn)題。它可能能夠準(zhǔn)確識(shí)別陶器的材質(zhì)和基本形狀,但在需要綜合判斷的復(fù)雜問(wèn)題上表現(xiàn)不佳。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)機(jī)制。他們首先對(duì)基礎(chǔ)訓(xùn)練后的AI進(jìn)行全面"體檢",找出它在哪些類型的問(wèn)題上表現(xiàn)較差。然后,他們?cè)O(shè)計(jì)了一套智能的獎(jiǎng)勵(lì)系統(tǒng),對(duì)AI的回答進(jìn)行評(píng)分。
這套獎(jiǎng)勵(lì)系統(tǒng)非常巧妙,它會(huì)根據(jù)問(wèn)題的類型調(diào)整評(píng)分標(biāo)準(zhǔn)。對(duì)于需要精確答案的問(wèn)題(比如陶器的材質(zhì)),系統(tǒng)更注重關(guān)鍵詞的準(zhǔn)確匹配;對(duì)于需要描述性回答的問(wèn)題(比如裝飾圖案的描述),系統(tǒng)更關(guān)注語(yǔ)義的完整性和合理性。更重要的是,對(duì)于AI表現(xiàn)較差的問(wèn)題類型,系統(tǒng)會(huì)給予更高的獎(jiǎng)勵(lì)權(quán)重,促使AI在這些薄弱環(huán)節(jié)上加強(qiáng)學(xué)習(xí)。
這種訓(xùn)練方法的效果就像給AI配備了一位嚴(yán)格而智慧的導(dǎo)師,不僅能指出錯(cuò)誤,還能針對(duì)性地提供改進(jìn)建議。通過(guò)這種方式,AI逐漸學(xué)會(huì)了像專業(yè)考古學(xué)家一樣思考和判斷。
三、AI助手的"考試成績(jī)單"
經(jīng)過(guò)嚴(yán)格的訓(xùn)練后,VaseVL系統(tǒng)在各項(xiàng)測(cè)試中展現(xiàn)出了令人印象深刻的表現(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的評(píng)估體系,就像給AI安排了一場(chǎng)綜合性的"期末考試"。
在材質(zhì)識(shí)別方面,VaseVL的準(zhǔn)確率達(dá)到了99.95%,幾乎達(dá)到了完美水平。這意味著它能夠準(zhǔn)確區(qū)分紅陶、黑陶等不同材質(zhì),表現(xiàn)甚至超過(guò)了一些初學(xué)者。在制作技法識(shí)別上,系統(tǒng)的準(zhǔn)確率也高達(dá)95.93%,能夠準(zhǔn)確識(shí)別紅繪技法、黑繪技法等古希臘陶器的經(jīng)典制作工藝。
在器型分類方面,VaseVL的準(zhǔn)確率為83.99%,這個(gè)成績(jī)相當(dāng)不錯(cuò),考慮到古希臘陶器的器型種類繁多,從日常用的酒杯到宗教儀式用的大型容器,每一種都有其獨(dú)特的形制特征。
更令人驚喜的是,在一些需要深度專業(yè)知識(shí)的復(fù)雜任務(wù)上,VaseVL也表現(xiàn)出色。比如在工匠歸屬判斷上,系統(tǒng)的準(zhǔn)確率達(dá)到60.83%,這意味著它能夠從藝術(shù)風(fēng)格和制作特征中推斷出可能的制作工匠或工作坊。要知道,這種判斷即使對(duì)專業(yè)考古學(xué)家來(lái)說(shuō)也是相當(dāng)有挑戰(zhàn)性的任務(wù)。
在年代判定方面,VaseVL的準(zhǔn)確率為39.87%。雖然這個(gè)數(shù)字看起來(lái)不如其他項(xiàng)目那么亮眼,但考慮到古希臘陶器的年代跨度長(zhǎng)達(dá)數(shù)百年,而且許多陶器的年代判定本身就存在爭(zhēng)議,這個(gè)成績(jī)已經(jīng)相當(dāng)可觀了。
最有趣的是裝飾描述任務(wù)的結(jié)果。在這個(gè)需要AI詳細(xì)描述陶器裝飾圖案的測(cè)試中,VaseVL的BLEU評(píng)分從基礎(chǔ)訓(xùn)練后的2.57分提升到了9.82分,提升幅度超過(guò)了280%。這表明強(qiáng)化學(xué)習(xí)階段確實(shí)顯著提升了AI的描述能力,讓它能夠更準(zhǔn)確、更詳細(xì)地描述復(fù)雜的裝飾圖案。
四、與其他AI系統(tǒng)的"擂臺(tái)賽"
為了驗(yàn)證VaseVL的實(shí)際水平,研究團(tuán)隊(duì)將它與市面上的其他知名AI系統(tǒng)進(jìn)行了對(duì)比測(cè)試,就像安排了一場(chǎng)AI界的"擂臺(tái)賽"。
參與對(duì)比的包括Qwen2-VL、LLaVA、MiniCPM等多個(gè)知名的多模態(tài)AI系統(tǒng)。這些系統(tǒng)在日常的圖像識(shí)別和問(wèn)答任務(wù)中都有不錯(cuò)的表現(xiàn),但面對(duì)古希臘陶器這個(gè)專業(yè)領(lǐng)域時(shí),它們的表現(xiàn)卻讓人大跌眼鏡。
比如,Qwen2-VL在材質(zhì)識(shí)別上的準(zhǔn)確率只有10.50%,在工匠歸屬判斷上更是接近零分。LLaVA系統(tǒng)在材質(zhì)識(shí)別上的表現(xiàn)稍好一些,達(dá)到了11.56%,但在其他復(fù)雜任務(wù)上同樣表現(xiàn)不佳。這些結(jié)果清楚地表明,通用AI系統(tǒng)雖然在日常任務(wù)中表現(xiàn)出色,但在需要專業(yè)知識(shí)的特定領(lǐng)域中往往力不從心。
這種差異就像讓一個(gè)擅長(zhǎng)現(xiàn)代汽車維修的技師去修理古董鐘表一樣,雖然都涉及機(jī)械原理,但具體的知識(shí)和技能要求完全不同。通用AI系統(tǒng)缺乏古希臘文化和陶器制作的專業(yè)背景知識(shí),自然無(wú)法給出準(zhǔn)確的判斷。
更有趣的是,研究團(tuán)隊(duì)還測(cè)試了僅經(jīng)過(guò)基礎(chǔ)訓(xùn)練(沒(méi)有強(qiáng)化學(xué)習(xí))的VaseVL版本。結(jié)果顯示,這個(gè)版本在材質(zhì)識(shí)別等基礎(chǔ)任務(wù)上已經(jīng)表現(xiàn)很好,準(zhǔn)確率達(dá)到99.96%,但在裝飾描述等復(fù)雜任務(wù)上的表現(xiàn)明顯不如完整版的VaseVL。這進(jìn)一步證明了強(qiáng)化學(xué)習(xí)階段對(duì)于提升AI復(fù)雜推理能力的重要性。
五、技術(shù)創(chuàng)新的"幕后故事"
VaseVL系統(tǒng)的成功并非偶然,它背后蘊(yùn)含著幾個(gè)重要的技術(shù)創(chuàng)新。這些創(chuàng)新就像烹飪中的獨(dú)門秘方,看似簡(jiǎn)單卻效果顯著。
首先是"診斷式獎(jiǎng)勵(lì)設(shè)計(jì)"。傳統(tǒng)的AI訓(xùn)練通常采用一刀切的方法,對(duì)所有類型的錯(cuò)誤都給予相同的懲罰。但VaseVL采用了更加智能的方法,它會(huì)先"診斷"AI在哪些方面表現(xiàn)較差,然后針對(duì)這些薄弱環(huán)節(jié)設(shè)計(jì)特殊的獎(jiǎng)勵(lì)機(jī)制。這就像一位好醫(yī)生會(huì)根據(jù)病人的具體癥狀開(kāi)出針對(duì)性的藥方一樣。
其次是"問(wèn)題類型條件化獎(jiǎng)勵(lì)"。不同類型的問(wèn)題需要不同的評(píng)判標(biāo)準(zhǔn),VaseVL能夠根據(jù)問(wèn)題類型自動(dòng)調(diào)整獎(jiǎng)勵(lì)權(quán)重。對(duì)于需要精確答案的問(wèn)題,系統(tǒng)更注重關(guān)鍵詞匹配;對(duì)于需要描述性回答的問(wèn)題,系統(tǒng)更關(guān)注語(yǔ)義完整性。這種靈活的評(píng)判機(jī)制讓AI能夠在不同任務(wù)中都發(fā)揮出最佳水平。
第三個(gè)創(chuàng)新是"組相對(duì)策略優(yōu)化"(GRPO)。這是一種特殊的訓(xùn)練算法,它能夠在提升AI性能的同時(shí),防止AI偏離原有的知識(shí)基礎(chǔ)。就像在改進(jìn)一個(gè)產(chǎn)品時(shí),既要增加新功能,又要保持原有功能的穩(wěn)定性一樣。
這些技術(shù)創(chuàng)新的結(jié)合使用,讓VaseVL不僅在準(zhǔn)確性上超越了通用AI系統(tǒng),在穩(wěn)定性和可靠性方面也表現(xiàn)出色。更重要的是,這套方法具有很好的通用性,可以應(yīng)用到其他需要專業(yè)知識(shí)的領(lǐng)域中。
六、開(kāi)啟文化遺產(chǎn)保護(hù)的新時(shí)代
VaseVL的成功不僅僅是一個(gè)技術(shù)突破,更重要的是它為文化遺產(chǎn)保護(hù)和研究開(kāi)辟了新的可能性。這個(gè)系統(tǒng)的應(yīng)用前景就像打開(kāi)了一扇通往未來(lái)的大門。
對(duì)于考古學(xué)家和博物館工作者來(lái)說(shuō),VaseVL就像一位永不疲倦的助手。它可以幫助快速篩選和分類大量的陶器文物,提高工作效率。特別是在處理新發(fā)現(xiàn)的考古材料時(shí),VaseVL能夠提供初步的分析結(jié)果,為專家的進(jìn)一步研究提供參考。
對(duì)于教育工作者來(lái)說(shuō),VaseVL可以成為一個(gè)優(yōu)秀的教學(xué)工具。學(xué)生們可以通過(guò)與AI的互動(dòng)來(lái)學(xué)習(xí)古希臘文化和陶器知識(shí),這種互動(dòng)式的學(xué)習(xí)方式比傳統(tǒng)的課堂講授更加生動(dòng)有趣。
對(duì)于普通公眾來(lái)說(shuō),VaseVL讓古希臘文化變得更加親近和可理解。當(dāng)人們參觀博物館時(shí),可以通過(guò)AI助手了解展品的詳細(xì)信息和歷史背景,讓參觀體驗(yàn)更加豐富和有意義。
更重要的是,VaseVL在文物保護(hù)方面也有重要價(jià)值。它可以幫助識(shí)別文物市場(chǎng)上的贗品,打擊非法文物貿(mào)易。通過(guò)分析陶器的風(fēng)格特征和制作工藝,系統(tǒng)能夠判斷一件陶器是否為真品,為文物保護(hù)執(zhí)法部門提供技術(shù)支持。
此外,VaseVL還可以幫助建立更加完善的文物數(shù)字檔案。通過(guò)AI的自動(dòng)分析和標(biāo)注,可以大大提高文物數(shù)字化的效率和質(zhì)量,為文化遺產(chǎn)的長(zhǎng)期保存和傳承提供技術(shù)保障。
七、面向未來(lái)的思考與展望
雖然VaseVL在古希臘陶器識(shí)別方面取得了顯著成功,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到這只是一個(gè)開(kāi)始。就像登山者征服了一座山峰后,會(huì)看到更多更高的山峰等待攀登一樣。
目前的系統(tǒng)主要針對(duì)古希臘陶器,但古代文明的文化遺產(chǎn)遠(yuǎn)不止于此。古埃及的壁畫、中國(guó)的青銅器、瑪雅文明的石刻等等,每一種文化遺產(chǎn)都有其獨(dú)特的特征和研究?jī)r(jià)值。如何將VaseVL的成功經(jīng)驗(yàn)推廣到其他文化遺產(chǎn)領(lǐng)域,是一個(gè)值得探索的方向。
另一個(gè)挑戰(zhàn)是如何處理文化遺產(chǎn)研究中的不確定性和爭(zhēng)議性??脊艑W(xué)研究往往涉及推測(cè)和假設(shè),同一件文物可能有多種不同的解釋。如何讓AI系統(tǒng)能夠處理這種不確定性,并提供多種可能的解釋,而不是簡(jiǎn)單的單一答案,是未來(lái)需要解決的問(wèn)題。
技術(shù)層面上,研究團(tuán)隊(duì)也在考慮如何進(jìn)一步提升系統(tǒng)的性能。比如,如何讓AI能夠處理更加復(fù)雜的多視角圖像,如何整合更多類型的信息(如化學(xué)成分分析、年代測(cè)定數(shù)據(jù)等),如何提高系統(tǒng)在處理殘缺文物時(shí)的準(zhǔn)確性等等。
從社會(huì)影響的角度來(lái)看,AI在文化遺產(chǎn)領(lǐng)域的應(yīng)用也帶來(lái)了一些需要思考的問(wèn)題。比如,如何平衡AI輔助和人類專家判斷的關(guān)系,如何確保AI系統(tǒng)不會(huì)取代人類的創(chuàng)造性思維,如何防止過(guò)度依賴技術(shù)而忽視文化遺產(chǎn)的人文價(jià)值等等。
說(shuō)到底,VaseVL的成功為我們展示了AI技術(shù)在文化遺產(chǎn)保護(hù)和研究領(lǐng)域的巨大潛力。它不僅能夠提高工作效率,降低研究門檻,還能夠?yàn)槲幕z產(chǎn)的傳承和普及做出重要貢獻(xiàn)。更重要的是,這項(xiàng)研究證明了通過(guò)精心設(shè)計(jì)的訓(xùn)練方法,AI系統(tǒng)可以在需要深度專業(yè)知識(shí)的領(lǐng)域中達(dá)到專家級(jí)的水平。
這種"診斷式強(qiáng)化學(xué)習(xí)"的方法不僅適用于文化遺產(chǎn)研究,也可以推廣到醫(yī)學(xué)診斷、法律分析、科學(xué)研究等其他需要專業(yè)知識(shí)的領(lǐng)域。從這個(gè)意義上說(shuō),VaseVL的成功不僅是考古學(xué)和AI技術(shù)的勝利,更是人類智慧與機(jī)器智能完美結(jié)合的典型范例。
隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,AI將在文化遺產(chǎn)保護(hù)和傳承方面發(fā)揮越來(lái)越重要的作用,讓人類的文化瑰寶得到更好的保護(hù)和傳承,讓更多的人能夠了解和欣賞人類文明的輝煌成就。對(duì)于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2509.17191v1查詢完整的研究報(bào)告。
Q&A
Q1:VaseVL是什么?它能做什么?
A:VaseVL是由澳大利亞研究團(tuán)隊(duì)開(kāi)發(fā)的專門識(shí)別古希臘陶器的AI系統(tǒng)。它能夠通過(guò)分析陶器圖片,準(zhǔn)確判斷陶器的材質(zhì)、制作工藝、器型、年代、產(chǎn)地和工匠歸屬等信息,就像一位專業(yè)的考古學(xué)家助手。
Q2:VaseVL的識(shí)別準(zhǔn)確率有多高?
A:VaseVL在不同任務(wù)上的表現(xiàn)各不相同。在材質(zhì)識(shí)別方面準(zhǔn)確率高達(dá)99.95%,制作技法識(shí)別達(dá)到95.93%,器型分類為83.99%。即使在最具挑戰(zhàn)性的工匠歸屬判斷上,也達(dá)到了60.83%的準(zhǔn)確率。
Q3:普通人可以使用VaseVL系統(tǒng)嗎?
A:目前VaseVL主要用于學(xué)術(shù)研究和專業(yè)文物分析。研究團(tuán)隊(duì)已經(jīng)公開(kāi)了相關(guān)代碼和數(shù)據(jù)集,感興趣的研究者可以通過(guò)GitHub平臺(tái)獲取。未來(lái)可能會(huì)開(kāi)發(fā)面向公眾的應(yīng)用版本,讓普通人也能體驗(yàn)AI考古的樂(lè)趣。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。