這項(xiàng)由上海人工智能實(shí)驗(yàn)室聯(lián)合北京大學(xué)、上海交通大學(xué)等多家機(jī)構(gòu)共同完成的研究,于2025年9月30日發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.22186v2),為文檔解析技術(shù)帶來(lái)了革命性突破。有興趣深入了解的讀者可以通過(guò)該論文編號(hào)查詢完整論文。
想象一下,你面前有一本厚厚的學(xué)術(shù)論文,里面密密麻麻的文字、復(fù)雜的數(shù)學(xué)公式、各種表格圖表,如果讓你把這些內(nèi)容完整準(zhǔn)確地轉(zhuǎn)換成電子文檔,你會(huì)感到多么頭疼。現(xiàn)在,上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為MinerU2.5的"智能助手",它就像一個(gè)經(jīng)驗(yàn)豐富的文檔處理專家,能夠快速準(zhǔn)確地理解和轉(zhuǎn)換各種復(fù)雜文檔。
這個(gè)研究解決的問(wèn)題其實(shí)與我們的日常生活息息相關(guān)。無(wú)論是學(xué)生需要整理學(xué)術(shù)資料,還是企業(yè)需要數(shù)字化歷史文檔,或者是研究人員需要從大量文獻(xiàn)中提取信息,文檔解析都是一個(gè)繞不開(kāi)的環(huán)節(jié)。傳統(tǒng)的方法要么需要人工逐字逐句地輸入,要么依賴多個(gè)軟件工具的復(fù)雜組合,不僅效率低下,還容易出錯(cuò)。
研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們?cè)O(shè)計(jì)了一種全新的"兩階段解析策略",就像一個(gè)聰明的偵探破案一樣。第一階段,這個(gè)智能助手會(huì)像鳥(niǎo)瞰全局的偵探一樣,快速瀏覽整個(gè)文檔,理解文檔的整體布局和結(jié)構(gòu),找出哪里是標(biāo)題、哪里是正文、哪里是表格公式。第二階段,它會(huì)像放大鏡一樣,針對(duì)每個(gè)具體區(qū)域進(jìn)行精細(xì)化的內(nèi)容識(shí)別和轉(zhuǎn)換。
更令人驚喜的是,MinerU2.5只有12億個(gè)參數(shù),相比其他動(dòng)輒幾百億參數(shù)的模型,它就像一個(gè)輕便但功能強(qiáng)大的瑞士軍刀。在多項(xiàng)權(quán)威測(cè)試中,它不僅超越了GPT-4o、Gemini-2.5 Pro等知名的通用AI模型,還在專業(yè)文檔解析任務(wù)上創(chuàng)下了新的性能記錄。這意味著,未來(lái)我們處理文檔的方式可能會(huì)發(fā)生根本性的改變,從繁瑣的人工操作轉(zhuǎn)向智能化的自動(dòng)處理。
一、破解文檔解析的千年難題:為什么這么難?
文檔解析聽(tīng)起來(lái)簡(jiǎn)單,實(shí)際上卻是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的一個(gè)超級(jí)難題。這就好比讓一個(gè)從未見(jiàn)過(guò)漢字的外國(guó)人去閱讀一本中文古籍,不僅要認(rèn)識(shí)每個(gè)字,還要理解字與字之間的關(guān)系,段落的層次結(jié)構(gòu),甚至還要處理各種特殊符號(hào)和圖表。
傳統(tǒng)的文檔處理方法就像一條流水線,需要多個(gè)工人分工合作。第一個(gè)工人負(fù)責(zé)找出文檔的布局結(jié)構(gòu),第二個(gè)工人負(fù)責(zé)識(shí)別文字,第三個(gè)工人負(fù)責(zé)處理表格,第四個(gè)工人負(fù)責(zé)識(shí)別數(shù)學(xué)公式。這種方法的問(wèn)題在于,一旦某個(gè)環(huán)節(jié)出錯(cuò),錯(cuò)誤就會(huì)像多米諾骨牌一樣傳遞下去,最終導(dǎo)致整個(gè)結(jié)果都不準(zhǔn)確。而且,這種方法需要維護(hù)多個(gè)不同的工具,就像需要同時(shí)掌握多種不同的技能一樣,既復(fù)雜又容易出問(wèn)題。
另一種方法是使用大型的通用AI模型,比如GPT-4o或者Gemini。這些模型就像一個(gè)博學(xué)的學(xué)者,什么都懂一點(diǎn),但在處理具體的文檔解析任務(wù)時(shí),卻經(jīng)常會(huì)出現(xiàn)"幻覺(jué)"現(xiàn)象。所謂幻覺(jué),就是模型會(huì)"腦補(bǔ)"一些原本不存在的內(nèi)容,或者在處理長(zhǎng)文檔時(shí)丟失重要信息。更要命的是,這些大模型在處理高分辨率文檔時(shí),需要消耗巨大的計(jì)算資源,就像用大炮打蚊子一樣,既浪費(fèi)又低效。
文檔解析的核心難點(diǎn)在于,文檔圖像通常分辨率很高,包含大量的空白區(qū)域和低信息密度的區(qū)域。當(dāng)AI模型試圖處理這些圖像時(shí),就會(huì)產(chǎn)生大量冗余的計(jì)算,這種計(jì)算復(fù)雜度會(huì)隨著圖像分辨率的增加而呈平方級(jí)增長(zhǎng)。這就好比讓一個(gè)人去數(shù)一個(gè)巨大倉(cāng)庫(kù)里的每一粒米,不僅費(fèi)時(shí)費(fèi)力,還容易出錯(cuò)。
正是在這樣的背景下,研究團(tuán)隊(duì)意識(shí)到需要一種全新的解決方案,既要保持高精度,又要控制計(jì)算成本,還要避免傳統(tǒng)流水線方法的錯(cuò)誤傳播問(wèn)題。
二、MinerU2.5的核心創(chuàng)新:像偵探一樣的兩階段策略
MinerU2.5的最大創(chuàng)新在于它采用了一種"粗細(xì)結(jié)合"的兩階段解析策略,這種方法就像一個(gè)經(jīng)驗(yàn)豐富的偵探破案的過(guò)程。
在第一階段,MinerU2.5就像一個(gè)站在高樓頂層俯瞰全城的偵探,它會(huì)將原始的高分辨率文檔圖像縮小到1036×1036像素的縮略圖。這個(gè)尺寸的選擇經(jīng)過(guò)了精心的計(jì)算和實(shí)驗(yàn)驗(yàn)證,既能保持文檔整體結(jié)構(gòu)的可見(jiàn)性,又能大幅降低計(jì)算成本。在這個(gè)階段,模型主要關(guān)注的是文檔的全局布局分析,就像偵探首先要了解案發(fā)現(xiàn)場(chǎng)的整體情況一樣。
這個(gè)全局分析過(guò)程會(huì)識(shí)別出文檔中的各種元素:哪些區(qū)域是標(biāo)題,哪些是正文段落,哪些是表格,哪些是數(shù)學(xué)公式,哪些是圖片。更重要的是,它還會(huì)判斷這些元素的閱讀順序和可能的旋轉(zhuǎn)角度。這就好比偵探在現(xiàn)場(chǎng)勘查時(shí),不僅要找出所有的線索,還要理解這些線索之間的邏輯關(guān)系。
在第二階段,MinerU2.5就像拿著放大鏡仔細(xì)檢查每個(gè)線索的偵探。基于第一階段識(shí)別出的布局信息,它會(huì)從原始高分辨率圖像中精確地裁剪出每個(gè)感興趣的區(qū)域,然后對(duì)這些區(qū)域進(jìn)行精細(xì)化的內(nèi)容識(shí)別。這些裁剪出的圖像塊會(huì)保持原始分辨率,確保不會(huì)丟失任何細(xì)節(jié)信息。
這種設(shè)計(jì)的巧妙之處在于,它完美地解決了傳統(tǒng)方法的兩大痛點(diǎn)。首先,它避免了直接處理整個(gè)高分辨率圖像帶來(lái)的巨大計(jì)算開(kāi)銷(xiāo)。研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,這種方法可以將計(jì)算成本降低一個(gè)數(shù)量級(jí)。其次,它保持了內(nèi)容識(shí)別的高精度,因?yàn)樵诘诙A段處理的都是原始分辨率的圖像塊,不會(huì)因?yàn)閴嚎s或縮放而丟失重要細(xì)節(jié)。
更重要的是,這種兩階段設(shè)計(jì)還帶來(lái)了額外的好處。由于布局分析和內(nèi)容識(shí)別被分離開(kāi)來(lái),整個(gè)系統(tǒng)的可解釋性大大增強(qiáng)。當(dāng)出現(xiàn)錯(cuò)誤時(shí),用戶可以清楚地知道是布局識(shí)別出了問(wèn)題,還是內(nèi)容識(shí)別出了問(wèn)題,這對(duì)于系統(tǒng)的調(diào)試和優(yōu)化非常有價(jià)值。同時(shí),這種設(shè)計(jì)還有效地緩解了大型語(yǔ)言模型常見(jiàn)的"幻覺(jué)"問(wèn)題,因?yàn)槟P驮诿總€(gè)階段都有明確的任務(wù)目標(biāo),不容易產(chǎn)生無(wú)中生有的內(nèi)容。
三、模型架構(gòu):小而精的設(shè)計(jì)哲學(xué)
MinerU2.5的模型架構(gòu)體現(xiàn)了"小而精"的設(shè)計(jì)哲學(xué),就像一把精心打造的瑞士軍刀,雖然體積不大,但每個(gè)組件都經(jīng)過(guò)精心優(yōu)化,發(fā)揮著關(guān)鍵作用。
整個(gè)模型由三個(gè)核心組件構(gòu)成,就像一個(gè)高效團(tuán)隊(duì)的三個(gè)關(guān)鍵成員。首先是視覺(jué)編碼器,它就像團(tuán)隊(duì)中的"觀察員",負(fù)責(zé)理解和處理圖像信息。這個(gè)編碼器采用了6.75億參數(shù)的NaViT架構(gòu),這是一種能夠處理任意分辨率圖像的先進(jìn)技術(shù)。與傳統(tǒng)的固定分辨率處理方式不同,NaViT就像一個(gè)有彈性的橡皮筋,能夠自適應(yīng)地處理各種尺寸和比例的圖像,這對(duì)于文檔解析來(lái)說(shuō)至關(guān)重要,因?yàn)槲臋n的頁(yè)面尺寸和比例往往千差萬(wàn)別。
第二個(gè)組件是語(yǔ)言模型解碼器,它就像團(tuán)隊(duì)中的"翻譯員",負(fù)責(zé)將視覺(jué)信息轉(zhuǎn)換成人類(lèi)可以理解的文字。研究團(tuán)隊(duì)選擇了一個(gè)5億參數(shù)的Qwen2-Instruct模型作為基礎(chǔ)。這個(gè)選擇看似保守,但實(shí)際上非常明智。文檔解析任務(wù)雖然復(fù)雜,但主要的挑戰(zhàn)在于視覺(jué)理解而非語(yǔ)言生成,因此不需要過(guò)大的語(yǔ)言模型。這就好比解決一個(gè)數(shù)學(xué)題,關(guān)鍵在于理解題目的意思,而不是用多么華麗的語(yǔ)言來(lái)表達(dá)答案。
第三個(gè)組件是補(bǔ)丁合并器,它就像團(tuán)隊(duì)中的"協(xié)調(diào)員",負(fù)責(zé)將視覺(jué)信息和語(yǔ)言信息有效地結(jié)合起來(lái)。這個(gè)組件使用了像素反混洗技術(shù),將相鄰的2×2視覺(jué)標(biāo)記聚合在一起,然后再傳遞給語(yǔ)言模型。這種設(shè)計(jì)在保持性能的同時(shí),顯著提高了計(jì)算效率。
為了更好地處理文檔中常見(jiàn)的各種分辨率和長(zhǎng)寬比,研究團(tuán)隊(duì)還對(duì)模型進(jìn)行了特殊的優(yōu)化。他們將原本的一維旋轉(zhuǎn)位置編碼替換為多維旋轉(zhuǎn)位置編碼,這就像給模型裝上了一個(gè)更加精確的GPS系統(tǒng),能夠更好地理解圖像中各個(gè)元素的空間關(guān)系。
這種精簡(jiǎn)而高效的架構(gòu)設(shè)計(jì)使得MinerU2.5在保持強(qiáng)大功能的同時(shí),具有了出色的部署靈活性。相比那些動(dòng)輒幾百億參數(shù)的大型模型,MinerU2.5就像一輛高效的小型跑車(chē),既能跑得快,又不需要太多的燃料,可以在各種不同的硬件環(huán)境中穩(wěn)定運(yùn)行。
四、訓(xùn)練策略:三步走的成長(zhǎng)之路
MinerU2.5的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)從零開(kāi)始學(xué)習(xí)文檔處理的學(xué)生,需要經(jīng)歷三個(gè)循序漸進(jìn)的學(xué)習(xí)階段,每個(gè)階段都有明確的學(xué)習(xí)目標(biāo)和訓(xùn)練重點(diǎn)。
第一個(gè)階段是"模態(tài)對(duì)齊",就像教一個(gè)學(xué)生同時(shí)學(xué)會(huì)看圖和說(shuō)話。在這個(gè)階段,模型需要建立起視覺(jué)信息和語(yǔ)言信息之間的基本對(duì)應(yīng)關(guān)系。研究團(tuán)隊(duì)首先凍結(jié)了視覺(jué)編碼器和語(yǔ)言模型的參數(shù),只訓(xùn)練中間的連接層,讓模型學(xué)會(huì)如何將看到的圖像內(nèi)容轉(zhuǎn)換成語(yǔ)言描述。這就好比先教學(xué)生認(rèn)識(shí)蘋(píng)果的樣子,然后教他說(shuō)出"蘋(píng)果"這個(gè)詞。
接下來(lái),研究團(tuán)隊(duì)解凍了所有參數(shù),讓模型進(jìn)行更全面的學(xué)習(xí)。在這個(gè)子階段,模型不僅要學(xué)會(huì)基本的視覺(jué)-語(yǔ)言對(duì)應(yīng)關(guān)系,還要掌握基礎(chǔ)的OCR能力。訓(xùn)練數(shù)據(jù)包括了圖像標(biāo)注、視覺(jué)問(wèn)答、文本圖像對(duì)等多種類(lèi)型,就像讓學(xué)生同時(shí)練習(xí)看圖說(shuō)話、回答問(wèn)題和閱讀理解。
第二個(gè)階段是"文檔解析預(yù)訓(xùn)練",這是模型真正開(kāi)始專門(mén)學(xué)習(xí)文檔處理技能的階段。在這個(gè)階段,模型需要同時(shí)掌握兩項(xiàng)核心能力:布局分析和內(nèi)容識(shí)別。布局分析就像學(xué)會(huì)快速瀏覽一篇文章,理解哪里是標(biāo)題、哪里是段落、哪里是表格。內(nèi)容識(shí)別則像學(xué)會(huì)仔細(xì)閱讀每個(gè)部分的具體內(nèi)容,包括普通文字、數(shù)學(xué)公式和表格數(shù)據(jù)。
為了確保訓(xùn)練的全面性,研究團(tuán)隊(duì)準(zhǔn)備了一個(gè)包含690萬(wàn)樣本的大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像一個(gè)巨大的練習(xí)冊(cè),包含了230萬(wàn)個(gè)布局分析樣本、240萬(wàn)個(gè)文本識(shí)別樣本、110萬(wàn)個(gè)公式識(shí)別樣本和110萬(wàn)個(gè)表格識(shí)別樣本。模型在這個(gè)階段需要訓(xùn)練2個(gè)完整的輪次,確保對(duì)各種類(lèi)型的文檔都有充分的理解。
第三個(gè)階段是"文檔解析微調(diào)",這個(gè)階段的重點(diǎn)是讓模型掌握處理復(fù)雜和困難情況的能力。就像一個(gè)學(xué)生在掌握了基礎(chǔ)知識(shí)后,需要通過(guò)做難題來(lái)提高自己的水平。研究團(tuán)隊(duì)精心構(gòu)建了一個(gè)包含63萬(wàn)樣本的高質(zhì)量數(shù)據(jù)集,這些樣本都是經(jīng)過(guò)精心篩選的困難案例和高質(zhì)量示例。
在這個(gè)階段,數(shù)據(jù)的質(zhì)量比數(shù)量更重要。研究團(tuán)隊(duì)不僅從預(yù)訓(xùn)練數(shù)據(jù)中篩選出高質(zhì)量的多樣化樣本,還專門(mén)收集了一些模型在預(yù)訓(xùn)練階段表現(xiàn)不佳的困難案例,并對(duì)這些案例進(jìn)行了人工標(biāo)注。這就像為學(xué)生準(zhǔn)備了一套精選的難題集,每道題都針對(duì)特定的薄弱環(huán)節(jié)。
為了增強(qiáng)模型的魯棒性,研究團(tuán)隊(duì)還在訓(xùn)練過(guò)程中加入了各種數(shù)據(jù)增強(qiáng)策略。這些策略模擬了現(xiàn)實(shí)世界中可能遇到的各種文檔質(zhì)量問(wèn)題,比如模糊、傾斜、光照不均等。這就像讓學(xué)生在各種不同的環(huán)境下練習(xí),確保他們?cè)诿鎸?duì)真實(shí)世界的挑戰(zhàn)時(shí)能夠從容應(yīng)對(duì)。
五、數(shù)據(jù)引擎:打造高質(zhì)量訓(xùn)練素材的智能工廠
MinerU2.5能夠達(dá)到如此出色的性能,離不開(kāi)一個(gè)強(qiáng)大的數(shù)據(jù)引擎的支撐。這個(gè)數(shù)據(jù)引擎就像一個(gè)高度自動(dòng)化的智能工廠,能夠從海量的原始文檔中篩選、加工和生產(chǎn)出高質(zhì)量的訓(xùn)練數(shù)據(jù)。
整個(gè)數(shù)據(jù)處理流程分為三個(gè)主要階段,每個(gè)階段都有明確的目標(biāo)和精心設(shè)計(jì)的處理策略。第一個(gè)階段是數(shù)據(jù)篩選,就像在一個(gè)巨大的圖書(shū)館中挑選最有價(jià)值的書(shū)籍。研究團(tuán)隊(duì)面對(duì)的是一個(gè)包含大量網(wǎng)絡(luò)數(shù)據(jù)和商業(yè)采購(gòu)文檔的龐大數(shù)據(jù)池,但這些原始數(shù)據(jù)存在嚴(yán)重的長(zhǎng)尾分布問(wèn)題,就像圖書(shū)館中某些類(lèi)型的書(shū)籍特別多,而另一些類(lèi)型的書(shū)籍卻很少。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套多維度的平衡策略。在布局多樣性方面,他們使用頁(yè)面級(jí)圖像聚類(lèi)技術(shù),從各種不同的視覺(jué)布局和風(fēng)格中選擇代表性樣本。在文檔類(lèi)型多樣性方面,他們利用文檔的元數(shù)據(jù)信息,如學(xué)科分類(lèi)、標(biāo)簽等,進(jìn)行分層抽樣,確保學(xué)術(shù)論文、教科書(shū)、報(bào)告、演示文稿等各種類(lèi)型的文檔都有均衡的代表性。在元素平衡方面,他們使用初步的檢測(cè)模型來(lái)確保標(biāo)題、段落、表格、公式、圖片等關(guān)鍵元素在數(shù)據(jù)集中有平衡的分布。在語(yǔ)言平衡方面,他們特別注意維持中文和英文文檔的相當(dāng)比例。
第二個(gè)階段是預(yù)訓(xùn)練數(shù)據(jù)準(zhǔn)備,這個(gè)階段的目標(biāo)是為篩選出的數(shù)據(jù)生成高質(zhì)量的標(biāo)注。研究團(tuán)隊(duì)首先使用他們之前開(kāi)發(fā)的MinerU2流水線生成初始標(biāo)注,然后使用專門(mén)的專家模型對(duì)這些標(biāo)注進(jìn)行精細(xì)化改進(jìn)。對(duì)于文本內(nèi)容,他們使用強(qiáng)大的Qwen2.5-VL-72B-Instruct模型來(lái)驗(yàn)證和糾正文本識(shí)別結(jié)果。對(duì)于公式內(nèi)容,他們使用自己重新訓(xùn)練的UniMERNet模型來(lái)生成更高保真度的公式識(shí)別結(jié)果。對(duì)于表格內(nèi)容,他們使用自研的高性能表格解析模型重新生成所有的表格結(jié)構(gòu)。
第三個(gè)階段是微調(diào)數(shù)據(jù)構(gòu)建,這個(gè)階段的重點(diǎn)是識(shí)別和處理困難案例。研究團(tuán)隊(duì)開(kāi)發(fā)了一種創(chuàng)新的"推理一致性迭代挖掘"策略,這種策略的核心思想是利用模型推理過(guò)程中的隨機(jī)性來(lái)識(shí)別困難樣本。當(dāng)模型對(duì)某個(gè)樣本有充分的理解時(shí),多次推理的結(jié)果應(yīng)該高度一致。相反,如果多次推理的結(jié)果差異很大,說(shuō)明這個(gè)樣本位于模型的決策邊界附近,是一個(gè)需要重點(diǎn)關(guān)注的困難案例。
具體實(shí)現(xiàn)時(shí),研究團(tuán)隊(duì)會(huì)讓模型對(duì)同一個(gè)樣本進(jìn)行多次推理,然后計(jì)算這些結(jié)果之間的一致性。對(duì)于布局分析任務(wù),他們使用PageIoU指標(biāo)來(lái)衡量多次布局檢測(cè)結(jié)果之間的相似度。對(duì)于公式識(shí)別任務(wù),他們使用CDM指標(biāo)來(lái)評(píng)估多次識(shí)別結(jié)果的一致性。對(duì)于表格識(shí)別任務(wù),他們使用TEDS指標(biāo)來(lái)衡量表格結(jié)構(gòu)識(shí)別的一致性。那些一致性得分較低的樣本會(huì)被自動(dòng)標(biāo)記為困難案例,然后交給人工專家進(jìn)行精確標(biāo)注。
這種智能化的數(shù)據(jù)處理流程不僅大大提高了數(shù)據(jù)質(zhì)量,還顯著降低了人工標(biāo)注的工作量。通過(guò)將有限的人工資源集中在最有價(jià)值的困難案例上,研究團(tuán)隊(duì)能夠以最高的效率獲得最大的性能提升。
六、任務(wù)重新定義:讓機(jī)器更好地理解文檔結(jié)構(gòu)
MinerU2.5的另一個(gè)重要?jiǎng)?chuàng)新在于對(duì)傳統(tǒng)文檔解析任務(wù)的重新定義和增強(qiáng)。研究團(tuán)隊(duì)不滿足于簡(jiǎn)單地沿用現(xiàn)有的任務(wù)定義,而是從實(shí)際應(yīng)用需求出發(fā),對(duì)布局分析、公式識(shí)別和表格識(shí)別這三個(gè)核心任務(wù)進(jìn)行了系統(tǒng)性的改進(jìn)。
在布局分析方面,研究團(tuán)隊(duì)首先解決了一個(gè)長(zhǎng)期困擾該領(lǐng)域的問(wèn)題:缺乏統(tǒng)一的標(biāo)注體系。現(xiàn)有的數(shù)據(jù)集在元素定義、粒度和范圍方面存在廣泛的不一致性,就像不同的地圖使用不同的符號(hào)系統(tǒng),讓人無(wú)所適從。研究團(tuán)隊(duì)設(shè)計(jì)了一套層次化和全面的標(biāo)注體系,這套體系遵循三個(gè)關(guān)鍵原則。
首先是全面覆蓋原則,他們的標(biāo)注體系包含了其他系統(tǒng)經(jīng)常忽略的非正文內(nèi)容,如頁(yè)眉、頁(yè)腳、頁(yè)碼等。這些元素對(duì)于下游應(yīng)用如檢索增強(qiáng)生成非常重要。其次是精細(xì)粒度原則,他們將復(fù)雜元素進(jìn)行細(xì)分,比如將圖片細(xì)分為圖像、圖表、化學(xué)結(jié)構(gòu)等不同類(lèi)型,并為相關(guān)的標(biāo)題分配獨(dú)立的標(biāo)簽。最后是語(yǔ)義區(qū)分原則,他們?yōu)橐曈X(jué)上不同的文本塊如代碼、算法、參考文獻(xiàn)、列表等分配獨(dú)立的類(lèi)別,以保留重要的語(yǔ)義信息。
更重要的是,研究團(tuán)隊(duì)將布局分析重新定義為一個(gè)多任務(wù)問(wèn)題,在單次推理中同時(shí)預(yù)測(cè)每個(gè)文檔元素的四個(gè)關(guān)鍵屬性:位置、類(lèi)別、旋轉(zhuǎn)角度和閱讀順序。這種集成設(shè)計(jì)有效解決了旋轉(zhuǎn)元素的解析挑戰(zhàn),并簡(jiǎn)化了整個(gè)文檔分析流程。
為了更好地評(píng)估布局分析的質(zhì)量,研究團(tuán)隊(duì)還提出了一個(gè)新的評(píng)估指標(biāo)PageIoU。傳統(tǒng)的基于IoU的評(píng)估方法在處理文檔布局時(shí)存在明顯的局限性,因?yàn)槲谋緣K的邊界往往是模糊的。PageIoU通過(guò)計(jì)算頁(yè)面級(jí)別的覆蓋一致性,能夠更好地反映布局分析的實(shí)際質(zhì)量。
在公式識(shí)別方面,研究團(tuán)隊(duì)識(shí)別出現(xiàn)有模型在處理長(zhǎng)公式或多行公式時(shí)容易出現(xiàn)結(jié)構(gòu)性幻覺(jué)的問(wèn)題。他們提出了"整體-部分"解耦的哲學(xué),將公式分為原子公式和復(fù)合公式兩種類(lèi)型。原子公式是最小的、不可分割的語(yǔ)義單元,具有緊密的二維拓?fù)浣Y(jié)構(gòu)。復(fù)合公式則是原子公式的有序集合,通過(guò)特定的對(duì)齊關(guān)系垂直組合而成。
基于這種分類(lèi),研究團(tuán)隊(duì)開(kāi)發(fā)了原子分解與重組框架。這個(gè)框架首先通過(guò)布局分析將復(fù)合公式分解為原子公式序列,然后對(duì)每個(gè)原子公式進(jìn)行高精度識(shí)別,最后將識(shí)別結(jié)果結(jié)構(gòu)化地重新組合。這種"分而治之"的策略將一個(gè)困難的識(shí)別任務(wù)轉(zhuǎn)換為一系列簡(jiǎn)單的任務(wù),既確保了每個(gè)組件的高保真度識(shí)別,又保持了整體結(jié)構(gòu)的邏輯完整性。
在表格識(shí)別方面,研究團(tuán)隊(duì)針對(duì)復(fù)雜長(zhǎng)表格的解析挑戰(zhàn),提出了一種四階段識(shí)別流程。前兩個(gè)階段處理幾何標(biāo)準(zhǔn)化,系統(tǒng)檢測(cè)表格的邊界框和旋轉(zhuǎn)角度,然后通過(guò)裁剪和旋轉(zhuǎn)將圖像校正到標(biāo)準(zhǔn)方向。第三個(gè)階段是關(guān)鍵的表格識(shí)別階段,研究團(tuán)隊(duì)采用了優(yōu)化表格結(jié)構(gòu)語(yǔ)言作為中間表示。這種語(yǔ)言相比HTML具有顯著優(yōu)勢(shì),其簡(jiǎn)約設(shè)計(jì)與表格的視覺(jué)二維矩陣直接對(duì)應(yīng),將結(jié)構(gòu)標(biāo)記從28個(gè)以上減少到僅5個(gè),平均序列長(zhǎng)度縮短約50%。第四個(gè)階段是將OTSL輸出轉(zhuǎn)換為標(biāo)準(zhǔn)HTML的直接轉(zhuǎn)換過(guò)程。
七、性能表現(xiàn):全面超越現(xiàn)有技術(shù)的里程碑
MinerU2.5在各項(xiàng)評(píng)估中展現(xiàn)出的性能表現(xiàn)可以說(shuō)是文檔解析領(lǐng)域的一個(gè)重要里程碑。研究團(tuán)隊(duì)在OmniDocBench這個(gè)包含1355個(gè)文檔頁(yè)面的權(quán)威測(cè)試集上進(jìn)行了全面的性能評(píng)估,結(jié)果顯示MinerU2.5在幾乎所有指標(biāo)上都達(dá)到了新的技術(shù)高度。
在整體性能方面,MinerU2.5獲得了90.67分的綜合得分,這個(gè)成績(jī)不僅超越了所有的通用大型語(yǔ)言模型,包括GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等,也超越了所有專門(mén)針對(duì)文檔解析優(yōu)化的模型,如dots.ocr、MonkeyOCR等。更令人印象深刻的是,MinerU2.5僅用12億參數(shù)就達(dá)到了這樣的性能,而許多被超越的模型都有著幾十倍甚至上百倍的參數(shù)量。
在文本識(shí)別方面,MinerU2.5的編輯距離僅為0.047,這意味著它的文本識(shí)別準(zhǔn)確率極高,幾乎不會(huì)出現(xiàn)錯(cuò)誤。這個(gè)成績(jī)甚至超過(guò)了專門(mén)優(yōu)化的文本識(shí)別系統(tǒng)。在公式識(shí)別方面,MinerU2.5的CDM得分達(dá)到88.46,在這個(gè)特別具有挑戰(zhàn)性的任務(wù)上建立了新的性能標(biāo)桿。數(shù)學(xué)公式的識(shí)別一直是文檔解析中最困難的任務(wù)之一,因?yàn)楣讲粌H包含復(fù)雜的符號(hào),還有嚴(yán)格的結(jié)構(gòu)要求。
在表格識(shí)別方面,MinerU2.5的TEDS得分達(dá)到88.22,TEDS-S得分更是高達(dá)92.38。表格識(shí)別的難點(diǎn)在于需要同時(shí)理解表格的結(jié)構(gòu)和內(nèi)容,特別是處理復(fù)雜的跨行跨列情況。MinerU2.5在這方面的出色表現(xiàn)證明了其強(qiáng)大的結(jié)構(gòu)理解能力。
在閱讀順序預(yù)測(cè)方面,MinerU2.5的編輯距離僅為0.044,這表明它能夠準(zhǔn)確理解文檔的邏輯結(jié)構(gòu)和閱讀流程。這對(duì)于文檔的自動(dòng)化處理和信息提取具有重要意義。
特別值得注意的是,MinerU2.5在不同類(lèi)型的文檔上都表現(xiàn)出了穩(wěn)定的高性能。無(wú)論是學(xué)術(shù)論文、教科書(shū)、雜志、報(bào)紙還是財(cái)務(wù)報(bào)告,它都能保持一致的高質(zhì)量解析效果。這種泛化能力對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)非常重要,因?yàn)檎鎸?shí)世界中的文檔類(lèi)型千差萬(wàn)別。
在計(jì)算效率方面,MinerU2.5同樣表現(xiàn)出色。在A100 80G GPU上,它能夠達(dá)到每秒2.12頁(yè)的處理速度和每秒2337.25個(gè)標(biāo)記的生成速度。相比其他模型,MinerU2.5在MonkeyOCR-Pro-3B的基礎(chǔ)上實(shí)現(xiàn)了4倍的速度提升,比dots.ocr快了7倍。這種高效率使得MinerU2.5在大規(guī)模文檔處理場(chǎng)景中具有明顯的優(yōu)勢(shì)。
更重要的是,即使在沒(méi)有任何部署優(yōu)化的情況下,MinerU2.5的基線性能就已經(jīng)超過(guò)了其他經(jīng)過(guò)優(yōu)化的模型。這表明其架構(gòu)設(shè)計(jì)的內(nèi)在效率,為實(shí)際部署提供了更大的優(yōu)化空間。
八、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的跨越
MinerU2.5的技術(shù)突破不僅僅停留在實(shí)驗(yàn)室的性能指標(biāo)上,它在實(shí)際應(yīng)用中展現(xiàn)出的能力更是令人矚目。研究團(tuán)隊(duì)通過(guò)大量的實(shí)際案例展示了MinerU2.5如何解決現(xiàn)實(shí)世界中的文檔處理挑戰(zhàn)。
在學(xué)術(shù)文獻(xiàn)處理方面,MinerU2.5展現(xiàn)出了處理復(fù)雜學(xué)術(shù)論文的強(qiáng)大能力。學(xué)術(shù)論文通常包含復(fù)雜的多欄布局、大量的數(shù)學(xué)公式、詳細(xì)的表格數(shù)據(jù)以及各種圖表。傳統(tǒng)的文檔處理工具往往在面對(duì)這些復(fù)雜元素時(shí)力不從心,要么無(wú)法正確識(shí)別公式,要么破壞了表格的結(jié)構(gòu),要么丟失了重要的布局信息。MinerU2.5能夠完整地保留論文的所有結(jié)構(gòu)信息,包括頁(yè)眉頁(yè)腳、參考文獻(xiàn)、圖表標(biāo)題等細(xì)節(jié),同時(shí)準(zhǔn)確識(shí)別復(fù)雜的數(shù)學(xué)公式和表格內(nèi)容。
在商業(yè)文檔處理方面,MinerU2.5同樣表現(xiàn)出色。財(cái)務(wù)報(bào)告、市場(chǎng)分析報(bào)告、技術(shù)文檔等商業(yè)文檔往往具有標(biāo)準(zhǔn)化的格式,但內(nèi)容密度高,信息量大。MinerU2.5能夠準(zhǔn)確識(shí)別這些文檔中的關(guān)鍵信息,包括數(shù)據(jù)表格、圖表說(shuō)明、重要段落等,為企業(yè)的數(shù)字化轉(zhuǎn)型提供了強(qiáng)有力的技術(shù)支撐。
特別值得一提的是MinerU2.5在處理旋轉(zhuǎn)表格方面的突破。在實(shí)際的文檔中,表格經(jīng)常會(huì)因?yàn)轫?yè)面布局的需要而旋轉(zhuǎn)90度或其他角度。傳統(tǒng)的處理方法往往無(wú)法正確處理這種情況,導(dǎo)致表格內(nèi)容的識(shí)別錯(cuò)誤。MinerU2.5通過(guò)其增強(qiáng)的多任務(wù)布局分析能力,能夠準(zhǔn)確檢測(cè)表格的旋轉(zhuǎn)角度,并在內(nèi)容識(shí)別階段進(jìn)行相應(yīng)的幾何校正,確保表格內(nèi)容的準(zhǔn)確識(shí)別。
在多語(yǔ)言文檔處理方面,MinerU2.5展現(xiàn)出了優(yōu)秀的跨語(yǔ)言能力?,F(xiàn)代文檔經(jīng)常包含中英文混合的內(nèi)容,特別是在學(xué)術(shù)論文和技術(shù)文檔中。MinerU2.5能夠準(zhǔn)確識(shí)別和處理這種混合語(yǔ)言的情況,包括中英文混合的數(shù)學(xué)公式、表格標(biāo)題等復(fù)雜情況。
研究團(tuán)隊(duì)還特別關(guān)注了MinerU2.5在處理低質(zhì)量文檔方面的表現(xiàn)?,F(xiàn)實(shí)世界中的文檔往往存在各種質(zhì)量問(wèn)題,如掃描模糊、光照不均、傾斜變形等。通過(guò)在訓(xùn)練過(guò)程中加入各種數(shù)據(jù)增強(qiáng)策略,MinerU2.5對(duì)這些質(zhì)量問(wèn)題表現(xiàn)出了良好的魯棒性,能夠在各種不理想的條件下保持穩(wěn)定的性能。
在部署便利性方面,MinerU2.5的輕量化設(shè)計(jì)使其能夠在各種不同的硬件環(huán)境中穩(wěn)定運(yùn)行。無(wú)論是高端的服務(wù)器GPU還是普通的消費(fèi)級(jí)顯卡,MinerU2.5都能夠提供可接受的性能。這種靈活性對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)非常重要,因?yàn)椴皇撬械挠脩舳加袟l件使用最先進(jìn)的硬件設(shè)備。
說(shuō)到底,MinerU2.5代表了文檔解析技術(shù)發(fā)展的一個(gè)重要轉(zhuǎn)折點(diǎn)。它不僅在技術(shù)指標(biāo)上達(dá)到了新的高度,更重要的是,它證明了通過(guò)巧妙的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,可以用相對(duì)較小的模型達(dá)到甚至超越大型模型的性能。這種"小而精"的設(shè)計(jì)哲學(xué)為AI技術(shù)的普及和應(yīng)用開(kāi)辟了新的道路。
從更廣闊的視角來(lái)看,MinerU2.5的成功也為其他AI應(yīng)用領(lǐng)域提供了有價(jià)值的啟示。它展示了如何通過(guò)任務(wù)分解、專門(mén)優(yōu)化和高質(zhì)量數(shù)據(jù)來(lái)解決復(fù)雜的AI問(wèn)題,這種方法論對(duì)于推動(dòng)整個(gè)AI領(lǐng)域的發(fā)展具有重要意義。
未來(lái),隨著MinerU2.5技術(shù)的進(jìn)一步完善和推廣,我們可以期待看到更多基于這種技術(shù)的創(chuàng)新應(yīng)用。無(wú)論是教育領(lǐng)域的智能化教材處理,還是企業(yè)級(jí)的文檔管理系統(tǒng),或者是研究機(jī)構(gòu)的文獻(xiàn)分析工具,MinerU2.5都有望發(fā)揮重要作用,真正實(shí)現(xiàn)讓文檔解析變得像看圖說(shuō)話一樣簡(jiǎn)單的目標(biāo)。
Q&A
Q1:MinerU2.5相比傳統(tǒng)文檔解析方法有什么優(yōu)勢(shì)?
A:MinerU2.5采用創(chuàng)新的兩階段解析策略,先進(jìn)行全局布局分析,再進(jìn)行局部精細(xì)識(shí)別,避免了傳統(tǒng)流水線方法的錯(cuò)誤傳播問(wèn)題,同時(shí)比直接處理高分辨率圖像的方法效率高一個(gè)數(shù)量級(jí)。它只有12億參數(shù),卻在文本、公式、表格識(shí)別等任務(wù)上全面超越了包括GPT-4o在內(nèi)的大型模型。
Q2:MinerU2.5能處理哪些類(lèi)型的復(fù)雜文檔?
A:MinerU2.5能夠處理各種復(fù)雜文檔,包括多欄學(xué)術(shù)論文、包含復(fù)雜數(shù)學(xué)公式的技術(shù)文檔、帶有旋轉(zhuǎn)表格的報(bào)告、中英文混合的文檔等。它特別擅長(zhǎng)處理傳統(tǒng)方法難以應(yīng)對(duì)的旋轉(zhuǎn)元素、無(wú)邊框表格、長(zhǎng)公式等挑戰(zhàn)性內(nèi)容,同時(shí)能保留頁(yè)眉頁(yè)腳等完整的文檔結(jié)構(gòu)信息。
Q3:普通用戶如何使用MinerU2.5?
A:MinerU2.5已經(jīng)開(kāi)源并提供了完整的代碼和模型,用戶可以通過(guò)GitHub獲取。由于其輕量化設(shè)計(jì),即使在普通的消費(fèi)級(jí)GPU上也能運(yùn)行,處理速度達(dá)到每秒2.12頁(yè)。研究團(tuán)隊(duì)還提供了基于vLLM的高效部署方案,支持批量處理和異步推理,適合各種規(guī)模的應(yīng)用需求。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。