這項(xiàng)由騰訊模式識別中心的劉源、趙仲印、田樂等研究人員完成的突破性研究,發(fā)表于2025年EMNLP主要會議。該研究提出了一個名為POINTS-Reader的全新文檔轉(zhuǎn)換方法,徹底改變了傳統(tǒng)依賴大模型"蒸餾"的訓(xùn)練模式。有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/Tencent/POINTS-Reader訪問完整項(xiàng)目。
當(dāng)你拿起一本厚厚的教科書,里面既有普通文字,又有復(fù)雜的數(shù)學(xué)公式和密密麻麻的表格時,你可能會感到頭疼?,F(xiàn)在想象一下,要讓計算機(jī)也能"讀懂"這樣的文檔內(nèi)容,并準(zhǔn)確地把它們轉(zhuǎn)換成數(shù)字化文本,這該有多么困難。騰訊AI團(tuán)隊面對的正是這樣一個挑戰(zhàn),他們要讓計算機(jī)學(xué)會像人一樣理解和處理各種復(fù)雜的文檔格式。
傳統(tǒng)的做法就像讓一個學(xué)生通過模仿優(yōu)等生的作業(yè)來學(xué)習(xí)。研究人員通常會用GPT-4這樣的"超級學(xué)霸"來給文檔做標(biāo)注,然后讓較小的模型學(xué)習(xí)這些標(biāo)注結(jié)果。這種方法被稱為"知識蒸餾",就好比讓一個學(xué)生看著學(xué)霸的答案來學(xué)習(xí)解題方法。然而,這種方法存在明顯的問題:學(xué)生永遠(yuǎn)無法超越被模仿的對象,而且還可能學(xué)到學(xué)霸的一些壞習(xí)慣。
更重要的是,這種依賴"老師"的學(xué)習(xí)方式讓AI的發(fā)展受到了限制。就像一個班級里如果所有學(xué)生都在模仿同一個學(xué)霸,那么整個班級的思維方式就會變得單一,缺乏創(chuàng)新性。騰訊的研究團(tuán)隊意識到這個問題后,決定讓AI"自立門戶",通過自己的努力來掌握文檔理解的能力。
他們的解決方案分為兩個階段,就像培養(yǎng)一個獨(dú)立學(xué)習(xí)者的完整過程。第一個階段叫做"統(tǒng)一格式預(yù)熱階段",這就像給學(xué)生制定一套標(biāo)準(zhǔn)化的學(xué)習(xí)方法。研究團(tuán)隊發(fā)現(xiàn),文檔中的不同元素——普通文字、數(shù)學(xué)公式、表格——通常用不同的格式來表示,這讓AI學(xué)習(xí)起來特別困難。就好比一個學(xué)生同時要學(xué)習(xí)中文、英文和數(shù)學(xué)符號,如果沒有統(tǒng)一的學(xué)習(xí)規(guī)則,很容易搞混。
因此,他們?yōu)槊糠N內(nèi)容制定了統(tǒng)一的輸出格式。普通文字用Markdown語法表示,就像給文字穿上統(tǒng)一的"制服";表格統(tǒng)一用HTML格式,因?yàn)镸arkdown表格無法處理復(fù)雜的合并單元格結(jié)構(gòu),就像普通的格子紙無法畫出復(fù)雜的建筑圖紙一樣;數(shù)學(xué)公式則用LaTeX語法,這是數(shù)學(xué)界公認(rèn)的"通用語言"。
有了統(tǒng)一的格式規(guī)則后,他們開始"制造"大量的練習(xí)材料。這個過程就像一個出版社批量生產(chǎn)教輔書籍。他們用大語言模型生成各種類型的文本內(nèi)容,然后把這些內(nèi)容渲染成圖片,形成圖文對照的訓(xùn)練數(shù)據(jù)。這樣做的好處是可以快速獲得大量高質(zhì)量的訓(xùn)練素材,而且每一份素材的答案都是完全準(zhǔn)確的。
他們總共生成了四類數(shù)據(jù):純文本內(nèi)容、包含數(shù)學(xué)公式的文本、包含表格的文本,以及多欄布局的復(fù)雜文檔。每一類數(shù)據(jù)都經(jīng)過精心設(shè)計,確保涵蓋真實(shí)世界中可能遇到的各種情況。就像制作一套完整的練習(xí)冊,從基礎(chǔ)題目開始,逐漸增加難度。
第二個階段被稱為"迭代自我改進(jìn)階段",這是整個研究中最具創(chuàng)新性的部分。雖然AI在合成數(shù)據(jù)上訓(xùn)練得很好,但真實(shí)世界的文檔往往更加復(fù)雜多變,就像在教室里學(xué)會了游泳動作,但真正下水時還是會遇到各種意外情況。為了讓AI適應(yīng)真實(shí)環(huán)境,研究團(tuán)隊讓它開始處理真實(shí)的文檔,然后通過巧妙的"自我檢驗(yàn)"機(jī)制來篩選高質(zhì)量的結(jié)果。
這個自我檢驗(yàn)過程特別巧妙。對于文字內(nèi)容,他們使用傳統(tǒng)的OCR工具作為"參考答案"來計算F1分?jǐn)?shù),就像用標(biāo)準(zhǔn)答案來檢查作業(yè)的正確性。雖然OCR工具本身不夠完美,但在識別基本文字方面還是相當(dāng)可靠的,可以有效篩選出那些明顯錯誤的結(jié)果,比如漏掉大段文字或者產(chǎn)生幻覺內(nèi)容的情況。
對于表格,他們重點(diǎn)檢查結(jié)構(gòu)的完整性。每個表格的行和列必須保持一致,就像檢查一個拼圖是否完整。如果某一行的單元格數(shù)量和其他行不一致,這樣的數(shù)據(jù)就會被剔除。
數(shù)學(xué)公式的檢驗(yàn)則相對簡單,主要檢查語法是否正確。雖然無法驗(yàn)證公式的數(shù)學(xué)含義是否正確,但至少可以確保公式的格式是合法的,不會出現(xiàn)括號不匹配或者語法錯誤的情況。
經(jīng)過篩選后的高質(zhì)量數(shù)據(jù)被用來重新訓(xùn)練模型,這個過程可以反復(fù)進(jìn)行多輪。每一輪訓(xùn)練后,模型的能力都會有所提升,同時生成的數(shù)據(jù)質(zhì)量也會越來越高。這形成了一個正向的螺旋上升過程,就像一個學(xué)生通過不斷練習(xí)和自我糾錯來提高成績。
研究團(tuán)隊在實(shí)驗(yàn)中發(fā)現(xiàn)了許多有趣的現(xiàn)象。比如,當(dāng)合成數(shù)據(jù)的規(guī)模達(dá)到80萬條時,模型的性能開始出現(xiàn)下降。這說明過度依賴合成數(shù)據(jù)可能會讓模型"過擬合",就像一個學(xué)生如果只做模擬題而不接觸真實(shí)考試,可能會在實(shí)際應(yīng)試中表現(xiàn)不佳。這進(jìn)一步證明了第二階段真實(shí)數(shù)據(jù)適應(yīng)的重要性。
他們還發(fā)現(xiàn),數(shù)據(jù)的長寬比對訓(xùn)練效果有顯著影響。那些形狀過于極端的圖片——比如特別細(xì)長或者特別扁平的文檔——往往會影響模型的學(xué)習(xí)效果。這就像人在閱讀時,如果書頁的比例太過奇怪,也會影響閱讀的舒適度和效率。因此,他們將數(shù)據(jù)篩選范圍限制在長寬比2/5到5/2之間,這個范圍基本涵蓋了常見文檔格式。
在多輪迭代的過程中,模型表現(xiàn)出了令人驚喜的持續(xù)改進(jìn)能力。即使在只檢驗(yàn)表格結(jié)構(gòu)和公式語法正確性的情況下,模型對這些內(nèi)容的識別準(zhǔn)確率也在穩(wěn)步提升。這說明通過高質(zhì)量數(shù)據(jù)的反復(fù)訓(xùn)練,模型確實(shí)在"理解"這些內(nèi)容,而不僅僅是機(jī)械地模仿。
實(shí)驗(yàn)結(jié)果證明了這種方法的有效性。POINTS-Reader在多個基準(zhǔn)測試中都表現(xiàn)出色,在某些任務(wù)上甚至超越了體積更大的競爭模型。比如在OmniDocBench的表格識別任務(wù)中,它比GOT-OCR模型高出19.7個百分點(diǎn),這是一個相當(dāng)顯著的提升。更重要的是,它在Fox數(shù)據(jù)集上的整體編輯距離只有0.023,這意味著它的輸出結(jié)果與標(biāo)準(zhǔn)答案幾乎完全一致。
這種方法的優(yōu)勢不僅體現(xiàn)在性能上,更在于它開辟了一條全新的發(fā)展路徑。傳統(tǒng)的蒸餾方法就像讓所有學(xué)生都去模仿同一個老師,而這種自我改進(jìn)的方法讓AI能夠根據(jù)自己的經(jīng)驗(yàn)來學(xué)習(xí)和成長。這種獨(dú)立學(xué)習(xí)的能力對于AI的長遠(yuǎn)發(fā)展具有重要意義。
當(dāng)然,這個方法目前還存在一些限制。比如它目前只支持英文文檔,對于中文、日文等其他語言的支持還需要進(jìn)一步開發(fā)。另外,它主要專注于文字、公式和表格的識別,對于圖片內(nèi)容的處理能力還比較有限。研究團(tuán)隊表示,他們將在未來的工作中逐步解決這些問題。
從更廣闊的視角來看,這項(xiàng)研究展示了AI領(lǐng)域的一個重要發(fā)展趨勢:從依賴外部"老師"轉(zhuǎn)向自主學(xué)習(xí)能力的培養(yǎng)。這種轉(zhuǎn)變不僅能夠提高AI系統(tǒng)的性能,更重要的是讓它們獲得了持續(xù)改進(jìn)的能力。就像人類文明的進(jìn)步一樣,最重要的不是現(xiàn)在掌握了多少知識,而是具備了不斷學(xué)習(xí)和創(chuàng)新的能力。
POINTS-Reader的成功也為其他AI任務(wù)提供了有價值的啟發(fā)。這種"先用合成數(shù)據(jù)打基礎(chǔ),再用真實(shí)數(shù)據(jù)精雕細(xì)琢"的方法,很可能成為AI訓(xùn)練的一種新范式。它證明了在某些領(lǐng)域,我們可以擺脫對超大模型的依賴,通過精心設(shè)計的訓(xùn)練方法讓相對較小的模型也能達(dá)到優(yōu)秀的性能。
說到底,這項(xiàng)研究最大的價值在于它為AI的發(fā)展指出了一條更加自主和可持續(xù)的道路。在這個AI技術(shù)日新月異的時代,能夠讓機(jī)器學(xué)會獨(dú)立學(xué)習(xí),不再依賴"老師"的指導(dǎo),這本身就是一個了不起的成就。對于普通用戶而言,這意味著未來我們將擁有更加智能、更加準(zhǔn)確的文檔處理工具,無論是學(xué)術(shù)論文、技術(shù)文檔還是復(fù)雜的財務(wù)報表,都能被快速而準(zhǔn)確地數(shù)字化。
研究團(tuán)隊已經(jīng)將POINTS-Reader開源,這意味著全世界的研究者和開發(fā)者都可以基于這個工作繼續(xù)創(chuàng)新。相信在不久的將來,我們會看到更多基于這種自主學(xué)習(xí)理念的AI應(yīng)用出現(xiàn),為人類的工作和生活帶來更多便利。
Q&A
Q1:POINTS-Reader和傳統(tǒng)的文檔識別方法有什么不同?
A:傳統(tǒng)方法需要依賴GPT-4等大模型來制作訓(xùn)練數(shù)據(jù),就像學(xué)生模仿學(xué)霸的作業(yè)來學(xué)習(xí)。而POINTS-Reader采用自主學(xué)習(xí)方式,先用合成數(shù)據(jù)建立基礎(chǔ),再通過自我改進(jìn)機(jī)制在真實(shí)數(shù)據(jù)上不斷提升,不需要依賴外部"老師"指導(dǎo)。
Q2:POINTS-Reader能處理哪些類型的文檔內(nèi)容?
A:POINTS-Reader主要處理三類內(nèi)容:普通文字(用Markdown格式輸出)、數(shù)學(xué)公式(用LaTeX語法表示)和表格(用HTML格式呈現(xiàn))。它特別擅長處理包含復(fù)雜表格和數(shù)學(xué)公式的學(xué)術(shù)文檔、技術(shù)報告等專業(yè)材料。
Q3:普通用戶可以使用POINTS-Reader嗎?
A:是的,研究團(tuán)隊已經(jīng)將POINTS-Reader開源,用戶可以通過GitHub鏈接https://github.com/Tencent/POINTS-Reader訪問完整項(xiàng)目。不過目前主要面向開發(fā)者和研究人員,普通用戶可能需要等待更友好的應(yīng)用版本推出。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。