古代文獻(xiàn)就像是時(shí)光的密碼箱,里面鎖著前人的智慧和故事,但由于年代久遠(yuǎn)、字跡模糊,這些珍貴的歷史資料往往只能靜靜躺在圖書館里?,F(xiàn)在,斯坦福大學(xué)的研究團(tuán)隊(duì)終于找到了打開這些密碼箱的鑰匙。這項(xiàng)由斯坦福大學(xué)的Sina J. Semnani、Han Zhang、Xinyan He、Merve Tekgürler和Monica S. Lam領(lǐng)導(dǎo)的研究發(fā)表于2025年1月的arXiv預(yù)印本論文庫,編號(hào)為arXiv:2509.19768v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。
研究團(tuán)隊(duì)開發(fā)了一個(gè)名為CHURRO的人工智能系統(tǒng),就像給古代文獻(xiàn)配備了一位經(jīng)驗(yàn)豐富的古文字專家。這個(gè)系統(tǒng)不僅能識(shí)別各種古老的文字,還能理解不規(guī)則的排版和因年代久遠(yuǎn)而模糊的文字。更令人驚嘆的是,它可以處理從公元前3世紀(jì)到20世紀(jì)跨越22個(gè)世紀(jì)的文獻(xiàn),覆蓋46種不同的語言和方言,包括許多已經(jīng)消失的古代語言。
整個(gè)研究就像是為歷史文獻(xiàn)打造了一套萬能翻譯工具。研究團(tuán)隊(duì)首先收集了一個(gè)名為CHURRO-DS的超大規(guī)模數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫包含了近10萬頁歷史文獻(xiàn),涵蓋了歐洲、東亞、東南亞、中東和印度等地區(qū)的14種不同文字系統(tǒng)。這些文獻(xiàn)包括報(bào)紙、書籍、手寫日記、政府記錄等各種類型的歷史材料。
一、古文獻(xiàn)識(shí)別面臨的巨大挑戰(zhàn)
想象一下,你拿到一本祖?zhèn)鞯墓艜?,上面的字跡已經(jīng)因?yàn)槟甏眠h(yuǎn)而變得模糊不清,有些頁面甚至出現(xiàn)了霉斑和破損。更復(fù)雜的是,這本書使用的是幾百年前的字體和拼寫方式,排版也和現(xiàn)代書籍完全不同。這正是歷史文獻(xiàn)數(shù)字化面臨的真實(shí)挑戰(zhàn)。
傳統(tǒng)的文字識(shí)別技術(shù)就像是一個(gè)只會(huì)閱讀現(xiàn)代印刷體的學(xué)生,當(dāng)遇到古代手寫體或特殊字體時(shí)就束手無策。這些古代文獻(xiàn)具有許多獨(dú)特的特征:首先是語言的復(fù)雜性,不僅包括現(xiàn)代語言的歷史變體,還包括許多已經(jīng)消失的古代語言。比如一份中世紀(jì)的拉丁文手稿,不僅使用的是古拉丁語,還充滿了當(dāng)時(shí)特有的縮寫和簡(jiǎn)寫形式。
其次是書寫方式的多樣性。古代文獻(xiàn)中經(jīng)常出現(xiàn)各種裝飾性元素,如紅色的標(biāo)題字、邊緣的注釋,以及精美的插圖。這些在現(xiàn)代文檔中很少見的特征,對(duì)文字識(shí)別系統(tǒng)來說都是額外的挑戰(zhàn)。手寫文獻(xiàn)的識(shí)別更加困難,因?yàn)椴煌臅鴮懻哂胁煌墓P跡風(fēng)格,即使是同一個(gè)人,在不同時(shí)期的書寫風(fēng)格也可能發(fā)生變化。
第三個(gè)挑戰(zhàn)是物理狀態(tài)的退化。經(jīng)過幾個(gè)世紀(jì)的保存,許多文獻(xiàn)都出現(xiàn)了不同程度的損壞,比如紙張發(fā)黃、墨跡褪色、頁面撕裂等。這些物理損傷使得原本就復(fù)雜的文字識(shí)別變得更加困難。
二、CHURRO系統(tǒng)的核心創(chuàng)新
面對(duì)這些挑戰(zhàn),斯坦福的研究團(tuán)隊(duì)采用了一種全新的解決方案。CHURRO系統(tǒng)就像是一個(gè)博學(xué)的古文字學(xué)者,不僅精通各種古代語言和文字,還具備強(qiáng)大的適應(yīng)能力。
系統(tǒng)的核心是基于一個(gè)名為Qwen 2.5 VL的基礎(chǔ)模型,這個(gè)模型原本就具備處理圖像和文字的能力。研究團(tuán)隊(duì)將其比作一個(gè)聰明的學(xué)生,雖然有一定的基礎(chǔ),但還需要專門的訓(xùn)練才能成為古文獻(xiàn)專家。通過在CHURRO-DS數(shù)據(jù)集上進(jìn)行專門訓(xùn)練,這個(gè)系統(tǒng)學(xué)會(huì)了如何處理各種復(fù)雜的歷史文獻(xiàn)。
與傳統(tǒng)方法不同,CHURRO采用了端到端的處理方式。傳統(tǒng)的文檔識(shí)別系統(tǒng)通常需要先檢測(cè)文字區(qū)域,然后逐個(gè)識(shí)別,最后再確定閱讀順序。這就像是把一幅拼圖拆散,然后試圖重新組裝。而CHURRO則能夠直接查看整個(gè)頁面,理解其中的內(nèi)容和結(jié)構(gòu),就像人類閱讀文獻(xiàn)時(shí)的自然過程一樣。
這種方法特別適合處理復(fù)雜的歷史文獻(xiàn)布局。比如一份古代報(bào)紙可能采用多欄排版,還夾雜著廣告和插圖,傳統(tǒng)系統(tǒng)很難準(zhǔn)確判斷正確的閱讀順序。CHURRO則能夠理解頁面的整體結(jié)構(gòu),正確識(shí)別從右到左或從上到下的閱讀方向,甚至能處理一些特殊的排版形式。
三、數(shù)據(jù)寶庫CHURRO-DS的構(gòu)建
為了訓(xùn)練CHURRO系統(tǒng),研究團(tuán)隊(duì)構(gòu)建了迄今為止最大規(guī)模的歷史文獻(xiàn)數(shù)據(jù)庫CHURRO-DS。這個(gè)數(shù)據(jù)庫的建設(shè)過程就像是組織一次全球性的歷史文獻(xiàn)大搜集活動(dòng)。
研究團(tuán)隊(duì)花費(fèi)了大量時(shí)間搜集和整理來自155個(gè)不同來源的歷史文獻(xiàn),最終匯集了99491頁文檔。這些文獻(xiàn)跨越了從公元前3世紀(jì)到20世紀(jì)的漫長歷史時(shí)期,覆蓋了46種不同的語言集群。其中包括29種語言出現(xiàn)在驗(yàn)證和測(cè)試數(shù)據(jù)集中,包括阿拉伯語、孟加拉語、保加利亞語、加泰羅尼亞語、中文、捷克語、荷蘭語、英語、芬蘭語、法語、德語、希臘語、希伯來語、印地語、意大利語、日語、高棉語、拉丁語、挪威語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、梵語、斯洛文尼亞語、西班牙語、瑞典語、土耳其語和越南語。
數(shù)據(jù)集還涵蓋了14種不同的文字系統(tǒng),來自歐洲、東亞、東南亞、中東和印度等5個(gè)主要文字家族。這種多樣性確保了CHURRO系統(tǒng)能夠處理世界各地的歷史文獻(xiàn),而不僅僅局限于某一種特定的語言或文字。
數(shù)據(jù)庫中的文獻(xiàn)類型也極其豐富,包括報(bào)紙、書籍、手寫日記、政府記錄等。每一頁文獻(xiàn)都配有完整的文本標(biāo)注,這些標(biāo)注是按照外交轉(zhuǎn)錄的標(biāo)準(zhǔn)制作的,也就是說,轉(zhuǎn)錄的文本完全忠實(shí)于原始文檔的內(nèi)容,包括原有的拼寫、標(biāo)點(diǎn)和格式。
四、訓(xùn)練過程中的精心調(diào)校
訓(xùn)練CHURRO系統(tǒng)的過程就像是培養(yǎng)一個(gè)古文獻(xiàn)專家。研究團(tuán)隊(duì)選擇了Qwen 2.5 VL作為基礎(chǔ)模型,這是一個(gè)30億參數(shù)的多模態(tài)模型,具備處理圖像和文本的能力。雖然相比其他一些大型模型來說參數(shù)較少,但這個(gè)規(guī)模對(duì)于歷史文獻(xiàn)識(shí)別任務(wù)來說已經(jīng)足夠了,而且能夠保持較高的運(yùn)行效率。
訓(xùn)練過程中,系統(tǒng)學(xué)習(xí)了如何處理各種復(fù)雜的歷史文獻(xiàn)特征。比如,它學(xué)會(huì)了識(shí)別各種古代字體,從哥特式字體到各種手寫體;學(xué)會(huì)了理解不同的頁面布局,從單欄到多欄,從水平文本到垂直文本;還學(xué)會(huì)了處理各種文檔狀態(tài),從清晰的印刷品到模糊的手稿。
整個(gè)訓(xùn)練過程使用了32個(gè)NVIDIA H100 GPU,持續(xù)了大約25小時(shí)。研究團(tuán)隊(duì)采用了梯度累積技術(shù),有效批次大小為128,學(xué)習(xí)率為5×10^-5,并使用了余弦學(xué)習(xí)率調(diào)度策略。這些技術(shù)細(xì)節(jié)確保了模型能夠穩(wěn)定有效地學(xué)習(xí)數(shù)據(jù)集中的復(fù)雜模式。
五、令人驚嘆的性能表現(xiàn)
經(jīng)過訓(xùn)練的CHURRO系統(tǒng)表現(xiàn)出了令人印象深刻的能力。在印刷文檔的識(shí)別上,CHURRO達(dá)到了82.3%的標(biāo)準(zhǔn)化編輯距離相似度,在手寫文檔上達(dá)到了70.1%。這個(gè)成績不僅超越了所有其他開源模型,甚至比最好的商業(yè)模型Gemini 2.5 Pro還要好,在印刷和手寫文檔上分別高出1.4%和6.5%。
更令人驚嘆的是成本效益。CHURRO的運(yùn)行成本僅為Gemini 2.5 Pro的1/15.5,這意味著同樣的預(yù)算可以處理15倍多的文獻(xiàn)。對(duì)于需要大規(guī)模數(shù)字化歷史文檔的圖書館和研究機(jī)構(gòu)來說,這種成本優(yōu)勢(shì)具有重要意義。
研究團(tuán)隊(duì)對(duì)各種不同語言的處理效果進(jìn)行了詳細(xì)分析。在印刷文檔方面,CHURRO在大多數(shù)語言上都表現(xiàn)出色,特別是在日語、芬蘭語和瑞典語等語言上改進(jìn)最為明顯,分別提升了37.0%、32.9%和22.9%。在手寫文檔方面,希臘語、日語、土耳其語、希伯來語和波斯語的改進(jìn)最為顯著,分別提升了62.6%、54.7%、42.3%、42.1%和36.8%。
六、深入的錯(cuò)誤分析與改進(jìn)空間
為了更好地理解CHURRO的表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的錯(cuò)誤分析。他們發(fā)現(xiàn),CHURRO在處理閱讀順序方面比基礎(chǔ)模型有顯著改進(jìn)。在50個(gè)樣本中,基礎(chǔ)模型有42%出現(xiàn)重大閱讀順序錯(cuò)誤,而CHURRO只有16%。這種改進(jìn)對(duì)于保持文檔內(nèi)容的連貫性和準(zhǔn)確性至關(guān)重要。
最常見的問題是欄目順序處理。許多CHURRO-DS中的頁面采用兩欄或多欄布局,一些模型容易搞錯(cuò)閱讀順序。對(duì)于東亞文字,這個(gè)問題更加突出,因?yàn)樵S多古代文獻(xiàn)采用從上到下、從右到左的書寫方向,而基礎(chǔ)模型往往無法正確識(shí)別這種傳統(tǒng)布局方式。
另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于幻覺現(xiàn)象。基礎(chǔ)模型中有36%的預(yù)測(cè)出現(xiàn)重大幻覺,也就是說,當(dāng)模型無法可靠識(shí)別文本時(shí),會(huì)生成看似合理但實(shí)際錯(cuò)誤的內(nèi)容。比如,在一份18世紀(jì)的荷蘭信件中,模型正確識(shí)別出這是一封信,但由于無法轉(zhuǎn)錄實(shí)際內(nèi)容,就生成了"Dit is een brief"(荷蘭語"這是一封信")這樣的內(nèi)容。經(jīng)過訓(xùn)練的CHURRO完全消除了這種幻覺現(xiàn)象。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些金標(biāo)準(zhǔn)標(biāo)注中的錯(cuò)誤。在檢查的50個(gè)樣本中,有2個(gè)包含不完整的頁面文本,這些錯(cuò)誤來自原始數(shù)據(jù)集中的標(biāo)注問題,在清理過程中未能完全發(fā)現(xiàn)。這提醒我們,即使是精心構(gòu)建的數(shù)據(jù)集,也可能存在一些難以避免的問題。
七、與現(xiàn)有技術(shù)的全面比較
研究團(tuán)隊(duì)將CHURRO與各種現(xiàn)有技術(shù)進(jìn)行了全面比較,包括專門的OCR系統(tǒng)、通用的大型視覺語言模型以及商業(yè)API服務(wù)。
在專門的OCR系統(tǒng)中,Azure OCR表現(xiàn)最好,達(dá)到71.9%的平均性能,但仍比CHURRO低10.4%。有趣的是,將Azure OCR與Gemini 2.5 Pro結(jié)合的混合系統(tǒng)表現(xiàn)反而更差,平均只有52.6%,在每種語言上的表現(xiàn)都不如其單獨(dú)組件。這說明簡(jiǎn)單的系統(tǒng)組合并不一定能帶來性能提升。
在開源的視覺語言模型中,專門針對(duì)OCR優(yōu)化的模型表現(xiàn)最好,如NuMarkdown、olmOCR和Nanonets OCR分別達(dá)到72.7%、69.8%和69.7%。但它們?nèi)匀伙@著落后于CHURRO。
商業(yè)模型方面,Gemini 2.5 Pro在零樣本設(shè)置下達(dá)到80.9%的印刷文檔識(shí)別率和63.6%的手寫文檔識(shí)別率,是商業(yè)模型中表現(xiàn)最好的。其他商業(yè)模型的表現(xiàn)差異很大,從38.7%到73.1%不等。
一個(gè)有趣的發(fā)現(xiàn)是,模型大小與性能之間并沒有明顯的相關(guān)性。比如,3B參數(shù)的Qwen 2.5 VL表現(xiàn)優(yōu)于同系列的72B參數(shù)版本,這與GPT-4.1和GPT-5系列中Mini模型的表現(xiàn)類似。這提醒我們,對(duì)于特定任務(wù),精心設(shè)計(jì)的小模型可能比簡(jiǎn)單放大的大模型更有效。
八、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)策略
CHURRO的技術(shù)實(shí)現(xiàn)涉及多個(gè)關(guān)鍵決策。首先是模型架構(gòu)的選擇。研究團(tuán)隊(duì)選擇了Qwen 2.5 VL作為基礎(chǔ),主要考慮其緊湊的規(guī)模、強(qiáng)大的零樣本OCR性能,以及處理高分辨率、可變大小圖像的能力。這些特性對(duì)于處理多樣化的歷史文獻(xiàn)布局至關(guān)重要。
在數(shù)據(jù)預(yù)處理方面,團(tuán)隊(duì)采用了sophisticated的標(biāo)準(zhǔn)化流程。他們將各種標(biāo)注格式(如ALTO XML、PAGE XML、JSON、純文本)統(tǒng)一轉(zhuǎn)換為單個(gè)文本字符串,并確保正確的閱讀順序。對(duì)于缺少明確閱讀順序標(biāo)注的數(shù)據(jù)集,他們開發(fā)了數(shù)據(jù)集特定的啟發(fā)式方法,對(duì)于復(fù)雜布局則使用VLM確定閱讀順序。
數(shù)據(jù)清理過程也極其細(xì)致。研究團(tuán)隊(duì)識(shí)別并修正了16個(gè)數(shù)據(jù)集中的標(biāo)注問題。比如,某些數(shù)據(jù)集遺漏了頁面頂部的文本,另一些包含頻繁的轉(zhuǎn)錄錯(cuò)誤。他們使用Gemini 2.5 Pro根據(jù)圖像邊界框建議修正,然后由人工驗(yàn)證這些修正。
為了確保外交轉(zhuǎn)錄的準(zhǔn)確性,研究團(tuán)隊(duì)標(biāo)準(zhǔn)化了各種印刷元素。他們將分?jǐn)?shù)符號(hào)(如1/4,Unicode U+00BC)轉(zhuǎn)換為1/4,將連字符(如Unicode U+FB06)轉(zhuǎn)換為"st"。這種標(biāo)準(zhǔn)化確保了評(píng)估系統(tǒng)只需轉(zhuǎn)錄可見內(nèi)容,而不依賴特定數(shù)據(jù)集的指導(dǎo)原則。
九、評(píng)估方法與指標(biāo)設(shè)計(jì)
研究團(tuán)隊(duì)采用了標(biāo)準(zhǔn)化的Levenshtein相似度作為主要評(píng)估指標(biāo)。這個(gè)指標(biāo)測(cè)量將一個(gè)字符串轉(zhuǎn)換為另一個(gè)字符串所需的插入、刪除和替換操作次數(shù),然后用較長字符串的長度進(jìn)行標(biāo)準(zhǔn)化,最后轉(zhuǎn)換為相似度分?jǐn)?shù)。這個(gè)指標(biāo)與OCR研究中常用的字符識(shí)別率密切相關(guān),但被限制在0到1的范圍內(nèi),便于跨不同文本長度進(jìn)行比較。
為了確保公平比較,研究團(tuán)隊(duì)對(duì)所有模型預(yù)測(cè)應(yīng)用了相同的標(biāo)準(zhǔn)化程序。對(duì)于阿拉伯文字,他們還使用PyArabic工具包進(jìn)行了額外的音調(diào)符號(hào)和hamza標(biāo)準(zhǔn)化。
評(píng)估結(jié)果按印刷和手寫文檔類型分別計(jì)算和平均。這種分類反映了兩種文檔類型的不同難度水平,手寫文檔通常更難識(shí)別,因?yàn)榇嬖趥€(gè)體書寫風(fēng)格的變化。
十、歷史文獻(xiàn)數(shù)字化的深遠(yuǎn)意義
CHURRO的成功不僅僅是技術(shù)上的突破,更具有深遠(yuǎn)的文化和學(xué)術(shù)意義。歷史文獻(xiàn)的數(shù)字化一直是人文學(xué)科的重要目標(biāo),但傳統(tǒng)方法要么成本高昂,要么準(zhǔn)確率不足。CHURRO提供了一個(gè)可行的解決方案,使得大規(guī)模歷史文獻(xiàn)數(shù)字化成為可能。
對(duì)圖書館和檔案機(jī)構(gòu)而言,CHURRO意味著他們可以以相對(duì)較低的成本將珍貴的歷史藏品數(shù)字化,使這些材料更容易被研究者和公眾獲取。即使是不完美的轉(zhuǎn)錄結(jié)果也能作為有價(jià)值的初稿,大大減少人工校對(duì)所需的時(shí)間。
對(duì)歷史學(xué)家和其他人文學(xué)者來說,CHURRO讓原本只有少數(shù)專家能夠閱讀的古代文獻(xiàn)變得更加易于獲取。這可能會(huì)促進(jìn)新的研究發(fā)現(xiàn),因?yàn)楦嘌芯空吣軌蛟L問和分析歷史文獻(xiàn)。
此外,CHURRO的多語言能力意味著它能夠幫助保護(hù)那些使用較少研究語言的文化遺產(chǎn)。許多歷史文獻(xiàn)使用的是現(xiàn)在已經(jīng)很少使用或研究的語言,CHURRO能夠幫助這些文獻(xiàn)得到更好的保存和傳播。
說到底,CHURRO代表了人工智能技術(shù)與人文學(xué)科結(jié)合的一個(gè)成功范例。它不是要取代人類專家,而是要放大他們的能力,讓更多的歷史聲音能夠被聽到。通過讓沉睡千年的文獻(xiàn)重新開口說話,CHURRO為我們理解人類歷史和文化開辟了新的可能性。
研究團(tuán)隊(duì)已經(jīng)將CHURRO模型和CHURRO-DS數(shù)據(jù)集開源發(fā)布,希望能夠促進(jìn)社區(qū)驅(qū)動(dòng)的研究,進(jìn)一步改善歷史文本的可讀性,加速學(xué)術(shù)研究的進(jìn)展。這種開放的態(tài)度體現(xiàn)了學(xué)術(shù)界合作精神,也為這一重要技術(shù)的廣泛應(yīng)用奠定了基礎(chǔ)。雖然目前的技術(shù)還不夠完美,但它已經(jīng)為歷史文獻(xiàn)數(shù)字化領(lǐng)域帶來了革命性的改變,相信在未來會(huì)有更多的改進(jìn)和創(chuàng)新。
Q&A
Q1:CHURRO是什么系統(tǒng)?
A:CHURRO是斯坦福大學(xué)開發(fā)的人工智能歷史文獻(xiàn)識(shí)別系統(tǒng),就像給古代文獻(xiàn)配備了一位經(jīng)驗(yàn)豐富的古文字專家。它能識(shí)別各種古老文字,理解不規(guī)則排版和模糊文字,可以處理從公元前3世紀(jì)到20世紀(jì)跨越22個(gè)世紀(jì)的文獻(xiàn),覆蓋46種不同語言。
Q2:CHURRO-DS數(shù)據(jù)集有什么特別之處?
A:CHURRO-DS是目前最大規(guī)模的歷史文獻(xiàn)數(shù)據(jù)庫,包含99491頁來自155個(gè)不同來源的文檔,涵蓋46種語言集群和14種文字系統(tǒng)。這些文獻(xiàn)包括報(bào)紙、書籍、手寫日記、政府記錄等,每頁都配有完整的外交轉(zhuǎn)錄標(biāo)注,完全忠實(shí)于原始文檔內(nèi)容。
Q3:CHURRO的識(shí)別準(zhǔn)確率如何?
A:CHURRO在印刷文檔識(shí)別上達(dá)到82.3%準(zhǔn)確率,手寫文檔達(dá)到70.1%準(zhǔn)確率,不僅超越所有開源模型,還比最好的商業(yè)模型Gemini 2.5 Pro分別高出1.4%和6.5%。同時(shí)運(yùn)行成本僅為商業(yè)模型的1/15.5,具有極高的性價(jià)比優(yōu)勢(shì)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。