av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 以更少參數(shù)實現(xiàn)更好效果:Oracle團隊的FS-DAG模型讓文檔智能處理變得更簡單高效

以更少參數(shù)實現(xiàn)更好效果:Oracle團隊的FS-DAG模型讓文檔智能處理變得更簡單高效

2025-06-03 09:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 09:48 ? 科技行者

在數(shù)字化轉(zhuǎn)型浪潮中,自動從各類文檔中提取關鍵信息一直是企業(yè)的迫切需求。想象一下,你每天要處理幾十份不同格式的發(fā)票、醫(yī)療表格或銀行文件,手動輸入里面的數(shù)據(jù)——這既費時又容易出錯。而今天我要介紹的研究,正是針對這一普遍痛點提供了創(chuàng)新解決方案。

這項研究題為"FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding"(少樣本領域適應圖網(wǎng)絡用于視覺豐富文檔理解),由Oracle美國的Amit Agarwal和Oracle印度的Srikant Panda、Kulbhushan Pachuri共同完成,發(fā)表于2025年COLING會議。

現(xiàn)代人工智能領域已經(jīng)出現(xiàn)了許多強大的大型模型,如GPT、LLaMA等,它們在各種任務上表現(xiàn)出色。然而,這些模型通常需要海量的計算資源和訓練數(shù)據(jù),對于很多企業(yè)應用場景而言,無論是部署成本還是遷移到特定領域的難度都很高。尤其在處理具有復雜布局、專業(yè)術語和各種文本樣式的文檔時,這些挑戰(zhàn)更為突出。

想象一下,如果你是一家醫(yī)療機構,需要從各種病歷表格中自動提取信息;或者你是一家金融公司,需要處理各類銀行文件。如果使用現(xiàn)有的大型模型,你可能需要大量的特定領域數(shù)據(jù)進行訓練,還需要昂貴的計算資源。而且,即使投入這些資源,模型在處理實際文檔時,遇到OCR錯誤或拼寫錯誤等情況仍可能表現(xiàn)不佳。

Oracle團隊開發(fā)的FS-DAG模型正是為解決這些實際問題而設計的。它只需要少量(5份左右)的示例文檔就能適應新的文檔類型,模型參數(shù)不到90M(相比其他模型動輒上百兆的參數(shù)),卻能在文檔信息提取任務中達到甚至超越那些更龐大的模型的表現(xiàn)。更重要的是,當文檔中出現(xiàn)OCR錯誤或拼寫錯誤時,F(xiàn)S-DAG的性能幾乎不受影響,這對于實際應用極為重要。

接下來,讓我們深入了解這個模型的設計思路、創(chuàng)新點以及它在實際測試中的表現(xiàn)。無論你是否了解人工智能技術,我相信你都能從中看到這項研究如何讓文檔信息提取變得更簡單、更高效。

一、模型架構:像積木一樣組合的靈活設計

想象一下,傳統(tǒng)的大型模型就像一座預先建好的巨大建筑,要把它搬到新地方幾乎是不可能的任務。而FS-DAG則像是一套精心設計的樂高積木,可以根據(jù)需要靈活組裝成適合不同場景的結構。

FS-DAG的核心創(chuàng)新在于其模塊化架構。傳統(tǒng)模型通常采用整體式(或稱"單體式")設計,就像一個龐大但難以分解的整體。而FS-DAG則由多個功能明確的組件構成,這些組件可以根據(jù)需要進行替換或調(diào)整。

這個模型主要包含三大部分:文本特征提取器、視覺特征提取器和圖神經(jīng)網(wǎng)絡。想象一下,當你看一份文檔時,你會同時注意文字內(nèi)容(文本)和它的排版、字體大小、顏色等視覺元素。FS-DAG也是這樣工作的。

文本特征提取器就像是一位精通多國語言的翻譯,負責理解文檔中的文字內(nèi)容。它可以是像BERT、DistilBERT這樣的預訓練語言模型,也可以是針對特定領域優(yōu)化的語言模型,比如金融領域的FinBERT或醫(yī)療領域的BioBERT。這種靈活性讓FS-DAG能夠根據(jù)不同文檔類型選擇最合適的"翻譯官"。

視覺特征提取器則像是一位觀察入微的藝術鑒賞家,負責捕捉文檔的視覺布局和設計元素。它使用基于Resnet-18的UNET結構,能夠識別文檔中的視覺模式,例如表格結構、標題位置、強調(diào)區(qū)域等。

最精彩的部分是圖神經(jīng)網(wǎng)絡,它就像是一位經(jīng)驗豐富的偵探,將文本和視覺線索連接起來形成完整的證據(jù)鏈。在FS-DAG中,文檔被表示為一個圖,其中每個節(jié)點代表文檔中的一個文本區(qū)域(如一個單詞或短語),而邊則表示這些區(qū)域之間的空間關系。圖神經(jīng)網(wǎng)絡通過分析這些節(jié)點和邊之間的關系,學習識別哪些文本區(qū)域包含關鍵信息,以及它們在文檔結構中的角色。

FS-DAG還引入了共享位置嵌入和一致的閱讀順序,這就像給偵探提供了一張詳細的地圖和一個有序的調(diào)查路線。這些設計使得模型能夠更好地理解文檔中元素的空間關系和邏輯順序,進一步提高了信息提取的準確性。

二、少樣本學習:從"大海撈針"到"一見即通"

傳統(tǒng)的機器學習模型就像是貪吃的學生,需要大量的"食物"(數(shù)據(jù))才能學會新知識。而FS-DAG則像是一位聰明的快速學習者,只需要看幾個例子就能掌握新任務的要點。

少樣本學習(Few-shot Learning)是FS-DAG的關鍵能力。在實際業(yè)務場景中,獲取大量標注數(shù)據(jù)往往困難且成本高昂。想象一家保險公司剛剛設計了一種新的理賠表格,如果使用傳統(tǒng)方法,可能需要收集和標注數(shù)百甚至數(shù)千份這種新表格才能訓練模型。而使用FS-DAG,只需要5份左右的示例就能讓模型學會如何從這種新表格中提取關鍵信息。

這種"舉一反三"的能力來自于FS-DAG的幾個創(chuàng)新設計:

首先,模型利用預訓練的特征提取器作為"先驗知識"。就像一個有廣泛閱讀經(jīng)驗的人更容易理解新書籍一樣,這些預訓練模型已經(jīng)從大量數(shù)據(jù)中學習到了文本和視覺的一般特征,為少樣本學習奠定了基礎。

其次,F(xiàn)S-DAG采用圖神經(jīng)網(wǎng)絡進行信息傳遞和聚合。這就像是在進行有結構的思考,通過分析文檔元素之間的關系來理解整體結構,而不是孤立地看待每個元素。這種結構化思考使得模型能夠更有效地從少量例子中概括出規(guī)律。

第三,研究團隊引入了特別的訓練策略,包括數(shù)據(jù)增強和實例規(guī)范化等技術。想象一下,如果你只有5張照片來教一個孩子認識狗,你可能會從不同角度展示這些照片,或者指出狗的關鍵特征。FS-DAG的訓練策略也是類似的原理,通過人為增加數(shù)據(jù)的多樣性和規(guī)范化表示,幫助模型從有限的例子中學習更魯棒的特征。

通過這些創(chuàng)新,F(xiàn)S-DAG實現(xiàn)了在僅有5份示例文檔的情況下,達到甚至超過那些需要大量數(shù)據(jù)訓練的模型的性能。這對于需要快速適應新文檔類型的企業(yè)應用來說,無疑是一項重大突破。

三、模型健壯性:面對"字跡不清"也能穩(wěn)如泰山

在現(xiàn)實世界中,文檔處理面臨的一個最大挑戰(zhàn)是質(zhì)量參差不齊。有些文檔可能是模糊的掃描件,有些可能有污漬或折痕,還有些可能包含拼寫錯誤或OCR(光學字符識別)錯誤。一個真正實用的文檔處理模型必須能夠在這些"不完美"的情況下依然表現(xiàn)良好。

FS-DAG在這方面表現(xiàn)出色。研究團隊通過一系列實驗評估了模型對OCR錯誤和拼寫錯誤的魯棒性。他們在測試時人為引入了10%的錯誤(每10個單詞中有1個會被替換為常見的OCR錯誤版本),然后比較各個模型在這種"受干擾"情況下的表現(xiàn)。

結果令人印象深刻:當引入OCR錯誤時,基于純文本的模型(如BERT和DistilBERT)的性能下降了25-38%,而更大型的多模態(tài)模型(如LayoutLMv2)也下降了近20%。相比之下,F(xiàn)S-DAG的性能僅下降了不到1%,展示了驚人的穩(wěn)定性。

這種強大的魯棒性源于FS-DAG的多模態(tài)設計和圖結構。當文本出現(xiàn)錯誤時,模型可以依靠視覺特征和文檔結構的上下文來"猜測"正確的信息。就像人類閱讀一份部分模糊的文檔時,即使某些單詞不清晰,我們也能根據(jù)上下文和文檔布局推斷出意思。

例如,在一份醫(yī)療表格中,即使患者姓名字段中有拼寫錯誤,但由于它的位置(通常在表格頂部)和格式(通常是加粗或特別強調(diào)的),F(xiàn)S-DAG仍然能正確識別這是患者姓名字段。這種魯棒性對于實際應用至關重要,因為它減少了對完美輸入數(shù)據(jù)的依賴,提高了系統(tǒng)在各種真實場景下的可靠性。

四、實驗結果:體型更小卻表現(xiàn)更出色

為了全面評估FS-DAG的性能,研究團隊在多個數(shù)據(jù)集上進行了廣泛測試,包括公開數(shù)據(jù)集WildReceipt和兩個涵蓋多種文檔類型的行業(yè)數(shù)據(jù)集。

行業(yè)數(shù)據(jù)集包括兩大類:第一類包含電子商務發(fā)票、醫(yī)療表格、大學申請表等五種文檔類型;第二類包含醫(yī)療授權表、個人銀行賬戶表、抵押貸款表等七種文檔類型。這些數(shù)據(jù)集代表了企業(yè)在實際應用中可能面臨的各種文檔處理場景。

在所有測試中,F(xiàn)S-DAG與多個基準模型進行了比較,包括BERT、DistilBERT、SDMG-R、LayoutLMv2和LayoutLMv3。測試不僅評估了模型在正常條件下的性能,還評估了它們在面對OCR錯誤時的魯棒性,以及模型的計算效率(訓練時間和推理時間)。

在正常條件下,F(xiàn)S-DAG在第一類數(shù)據(jù)集上達到了98.89%的平均F1分數(shù),比SDMG-R高出9.75%,比LayoutLMv2高出4.86%。在第二類數(shù)據(jù)集上,F(xiàn)S-DAG達到了99.93%的平均F1分數(shù),比其他模型都要高。即使在公開數(shù)據(jù)集WildReceipt上,F(xiàn)S-DAG也達到了93.90%的F1分數(shù),超過了所有比較模型。

當引入OCR錯誤時,F(xiàn)S-DAG的性能僅下降了0.93%(第一類數(shù)據(jù)集)和0.91%(第二類數(shù)據(jù)集),而其他模型的性能下降幅度從2.11%到37.91%不等。這再次證明了FS-DAG在處理不完美輸入時的卓越能力。

在效率方面,盡管FS-DAG的參數(shù)量(81M)比SDMG-R(5M)大,但它比LayoutLMv2(200M)和LayoutLMv3(125M)小得多。訓練時間方面,F(xiàn)S-DAG平均需要21分鐘,比所有比較模型都要快。推理時間(處理一份文檔所需的時間)方面,F(xiàn)S-DAG平均需要773毫秒,比LayoutLMv2(1907毫秒)和LayoutLMv3(1363毫秒)快得多。

研究團隊還進行了詳細的消融研究,評估了FS-DAG各個組件的貢獻。結果表明,預訓練語言模型、預訓練視覺模型、位置嵌入和特殊訓練策略都對模型性能有顯著貢獻,且這些組件組合在一起時效果最佳。

特別值得一提的是,研究還探索了在FS-DAG中使用領域特定語言模型的效果。例如,在處理電子商務發(fā)票時,使用金融領域的語言模型(如ProsusAI/finbert)可以將F1分數(shù)從95.1%提高到98.63%;在處理醫(yī)療表格時,使用醫(yī)療領域的語言模型可以將F1分數(shù)從96.53%提高到98.98%。這進一步證明了FS-DAG模塊化設計的價值,允許用戶根據(jù)特定領域需求選擇最合適的組件。

五、實際應用與影響:從實驗室到企業(yè)的成功轉(zhuǎn)化

FS-DAG不僅在學術測試中表現(xiàn)出色,還已成功應用于實際業(yè)務場景。根據(jù)論文介紹,F(xiàn)S-DAG目前已被50多家客戶采用,并通過大型云服務提供商提供服務,每月處理超過100萬次API調(diào)用。

這種廣泛采用反映了FS-DAG在解決實際業(yè)務問題方面的價值。對于企業(yè)來說,F(xiàn)S-DAG提供了幾個關鍵優(yōu)勢:

首先,它大大降低了適應新文檔類型的成本和時間。傳統(tǒng)上,企業(yè)可能需要收集和標注大量文檔,然后花費數(shù)天甚至數(shù)周進行模型訓練。使用FS-DAG,只需要少量示例和較短的訓練時間就能適應新的文檔類型。

其次,F(xiàn)S-DAG的魯棒性減少了對完美輸入的依賴。在實際應用中,文檔質(zhì)量往往參差不齊,包含各種錯誤和不規(guī)則。FS-DAG能夠在這些不理想條件下保持高性能,減少了錯誤處理和人工干預的需要。

第三,相比大型模型,F(xiàn)S-DAG的較小體積和更高效率降低了部署和運行成本。這對于資源受限的環(huán)境或需要處理大量文檔的場景尤為重要。

FS-DAG適用于多種文檔處理任務,包括文檔分類、關鍵值提取、實體鏈接和圖分類。這使它能夠滿足各種行業(yè)的需求,如金融(處理發(fā)票、銀行文件)、醫(yī)療(處理病歷、保險表格)、物流(處理運輸文件)等。

研究團隊提到,未來的工作將重點擴展FS-DAG的能力,使其支持零樣本學習(完全沒有示例的情況下適應新文檔類型)和進一步提高其在更廣泛行業(yè)場景下的適應性。

結語:小而美的AI模型時代來臨?

FS-DAG的成功給我們帶來了一個有趣的啟示:在追求更大、更強大模型的AI發(fā)展趨勢中,精心設計的小型模型也能在特定任務上表現(xiàn)出色,甚至超越那些參數(shù)量龐大的巨型模型。

這個研究團隊通過聚焦于文檔理解這一具體問題,結合圖神經(jīng)網(wǎng)絡和少樣本學習的優(yōu)勢,創(chuàng)造了一個既高效又實用的解決方案。它不要求海量數(shù)據(jù),不需要驚人的計算資源,卻能提供企業(yè)真正需要的性能和靈活性。

對于普通用戶和企業(yè)來說,這意味著AI技術的應用門檻正在降低。你不需要是谷歌或微軟那樣的科技巨頭,也能利用先進的AI技術解決具體業(yè)務問題。隨著像FS-DAG這樣的模型變得更加普及,我們可能會看到更多企業(yè)將文檔處理自動化,從而節(jié)省時間和成本,減少錯誤,提高效率。

對于AI研究社區(qū)來說,F(xiàn)S-DAG展示了專注于特定問題領域、結合多種技術優(yōu)勢的研究方向的價值。在追求通用AI的同時,這種針對具體問題的創(chuàng)新同樣重要,能夠更快地將AI的好處帶給更多人。

總的來說,Oracle團隊的這項研究不僅提供了一個解決文檔理解問題的有效工具,也為AI模型設計提供了新的思路:有時候,更聰明的架構設計比簡單地增加模型大小更重要。在特定任務上,一個設計精良的小模型可能比一個龐大但通用的模型表現(xiàn)更好,同時還更容易部署和使用。

如果你對FS-DAG模型感興趣,可以通過GitHub(https://github.com/oracle-samples/fs-dag)了解更多信息,或者查閱發(fā)表在COLING 2025會議上的完整論文。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-