av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sub id="t7zll"><rt id="t7zll"><form id="t7zll"></form></rt></sub>

<legend id="t7zll"></legend>

<meter id="t7zll"></meter><center id="t7zll"></center>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

以更少參數(shù)實現(xiàn)更好效果：Oracle團隊的FS-DAG模型讓文檔智能處理變得更簡單高效

文檔理解圖神經(jīng)網(wǎng)絡少樣本學習

以更少參數(shù)實現(xiàn)更好效果：Oracle團隊的FS-DAG模型讓文檔智能處理變得更簡單高效

作者：科技行者

2025-06-03 09:48

分享至：

Oracle研究團隊開發(fā)了FS-DAG，這是一種用于視覺豐富文檔理解的少樣本領域適應圖網(wǎng)絡模型。與傳統(tǒng)大型模型不同，F(xiàn)S-DAG僅需5份示例文檔即可適應新文檔類型，參數(shù)量不到90M，卻在信息提取任務中表現(xiàn)卓越。模型采用模塊化架構，結合預訓練的文本和視覺特征提取器與圖神經(jīng)網(wǎng)絡，展現(xiàn)出對OCR錯誤的極強魯棒性（性能下降不到1%）。實驗表明，F(xiàn)S-DAG在多種文檔類型上優(yōu)于LayoutLMv2等大型模型，同時具有更短的訓練和推理時間。目前已被50多家企業(yè)采用，每月處理超過100萬次API調(diào)用，證明了其在實際業(yè)務場景中的價值。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 09:48 ? 科技行者

在數(shù)字化轉(zhuǎn)型浪潮中，自動從各類文檔中提取關鍵信息一直是企業(yè)的迫切需求。想象一下，你每天要處理幾十份不同格式的發(fā)票、醫(yī)療表格或銀行文件，手動輸入里面的數(shù)據(jù)——這既費時又容易出錯。而今天我要介紹的研究，正是針對這一普遍痛點提供了創(chuàng)新解決方案。

這項研究題為"FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding"（少樣本領域適應圖網(wǎng)絡用于視覺豐富文檔理解），由Oracle美國的Amit Agarwal和Oracle印度的Srikant Panda、Kulbhushan Pachuri共同完成，發(fā)表于2025年COLING會議。

現(xiàn)代人工智能領域已經(jīng)出現(xiàn)了許多強大的大型模型，如GPT、LLaMA等，它們在各種任務上表現(xiàn)出色。然而，這些模型通常需要海量的計算資源和訓練數(shù)據(jù)，對于很多企業(yè)應用場景而言，無論是部署成本還是遷移到特定領域的難度都很高。尤其在處理具有復雜布局、專業(yè)術語和各種文本樣式的文檔時，這些挑戰(zhàn)更為突出。

想象一下，如果你是一家醫(yī)療機構，需要從各種病歷表格中自動提取信息；或者你是一家金融公司，需要處理各類銀行文件。如果使用現(xiàn)有的大型模型，你可能需要大量的特定領域數(shù)據(jù)進行訓練，還需要昂貴的計算資源。而且，即使投入這些資源，模型在處理實際文檔時，遇到OCR錯誤或拼寫錯誤等情況仍可能表現(xiàn)不佳。

Oracle團隊開發(fā)的FS-DAG模型正是為解決這些實際問題而設計的。它只需要少量（5份左右）的示例文檔就能適應新的文檔類型，模型參數(shù)不到90M（相比其他模型動輒上百兆的參數(shù)），卻能在文檔信息提取任務中達到甚至超越那些更龐大的模型的表現(xiàn)。更重要的是，當文檔中出現(xiàn)OCR錯誤或拼寫錯誤時，F(xiàn)S-DAG的性能幾乎不受影響，這對于實際應用極為重要。

接下來，讓我們深入了解這個模型的設計思路、創(chuàng)新點以及它在實際測試中的表現(xiàn)。無論你是否了解人工智能技術，我相信你都能從中看到這項研究如何讓文檔信息提取變得更簡單、更高效。

一、模型架構：像積木一樣組合的靈活設計

想象一下，傳統(tǒng)的大型模型就像一座預先建好的巨大建筑，要把它搬到新地方幾乎是不可能的任務。而FS-DAG則像是一套精心設計的樂高積木，可以根據(jù)需要靈活組裝成適合不同場景的結構。

FS-DAG的核心創(chuàng)新在于其模塊化架構。傳統(tǒng)模型通常采用整體式（或稱"單體式"）設計，就像一個龐大但難以分解的整體。而FS-DAG則由多個功能明確的組件構成，這些組件可以根據(jù)需要進行替換或調(diào)整。

這個模型主要包含三大部分：文本特征提取器、視覺特征提取器和圖神經(jīng)網(wǎng)絡。想象一下，當你看一份文檔時，你會同時注意文字內(nèi)容（文本）和它的排版、字體大小、顏色等視覺元素。FS-DAG也是這樣工作的。

文本特征提取器就像是一位精通多國語言的翻譯，負責理解文檔中的文字內(nèi)容。它可以是像BERT、DistilBERT這樣的預訓練語言模型，也可以是針對特定領域優(yōu)化的語言模型，比如金融領域的FinBERT或醫(yī)療領域的BioBERT。這種靈活性讓FS-DAG能夠根據(jù)不同文檔類型選擇最合適的"翻譯官"。

視覺特征提取器則像是一位觀察入微的藝術鑒賞家，負責捕捉文檔的視覺布局和設計元素。它使用基于Resnet-18的UNET結構，能夠識別文檔中的視覺模式，例如表格結構、標題位置、強調(diào)區(qū)域等。

最精彩的部分是圖神經(jīng)網(wǎng)絡，它就像是一位經(jīng)驗豐富的偵探，將文本和視覺線索連接起來形成完整的證據(jù)鏈。在FS-DAG中，文檔被表示為一個圖，其中每個節(jié)點代表文檔中的一個文本區(qū)域（如一個單詞或短語），而邊則表示這些區(qū)域之間的空間關系。圖神經(jīng)網(wǎng)絡通過分析這些節(jié)點和邊之間的關系，學習識別哪些文本區(qū)域包含關鍵信息，以及它們在文檔結構中的角色。

FS-DAG還引入了共享位置嵌入和一致的閱讀順序，這就像給偵探提供了一張詳細的地圖和一個有序的調(diào)查路線。這些設計使得模型能夠更好地理解文檔中元素的空間關系和邏輯順序，進一步提高了信息提取的準確性。

二、少樣本學習：從"大海撈針"到"一見即通"

傳統(tǒng)的機器學習模型就像是貪吃的學生，需要大量的"食物"（數(shù)據(jù)）才能學會新知識。而FS-DAG則像是一位聰明的快速學習者，只需要看幾個例子就能掌握新任務的要點。

少樣本學習（Few-shot Learning）是FS-DAG的關鍵能力。在實際業(yè)務場景中，獲取大量標注數(shù)據(jù)往往困難且成本高昂。想象一家保險公司剛剛設計了一種新的理賠表格，如果使用傳統(tǒng)方法，可能需要收集和標注數(shù)百甚至數(shù)千份這種新表格才能訓練模型。而使用FS-DAG，只需要5份左右的示例就能讓模型學會如何從這種新表格中提取關鍵信息。

這種"舉一反三"的能力來自于FS-DAG的幾個創(chuàng)新設計：

首先，模型利用預訓練的特征提取器作為"先驗知識"。就像一個有廣泛閱讀經(jīng)驗的人更容易理解新書籍一樣，這些預訓練模型已經(jīng)從大量數(shù)據(jù)中學習到了文本和視覺的一般特征，為少樣本學習奠定了基礎。

其次，F(xiàn)S-DAG采用圖神經(jīng)網(wǎng)絡進行信息傳遞和聚合。這就像是在進行有結構的思考，通過分析文檔元素之間的關系來理解整體結構，而不是孤立地看待每個元素。這種結構化思考使得模型能夠更有效地從少量例子中概括出規(guī)律。

第三，研究團隊引入了特別的訓練策略，包括數(shù)據(jù)增強和實例規(guī)范化等技術。想象一下，如果你只有5張照片來教一個孩子認識狗，你可能會從不同角度展示這些照片，或者指出狗的關鍵特征。FS-DAG的訓練策略也是類似的原理，通過人為增加數(shù)據(jù)的多樣性和規(guī)范化表示，幫助模型從有限的例子中學習更魯棒的特征。

通過這些創(chuàng)新，F(xiàn)S-DAG實現(xiàn)了在僅有5份示例文檔的情況下，達到甚至超過那些需要大量數(shù)據(jù)訓練的模型的性能。這對于需要快速適應新文檔類型的企業(yè)應用來說，無疑是一項重大突破。

三、模型健壯性：面對"字跡不清"也能穩(wěn)如泰山

在現(xiàn)實世界中，文檔處理面臨的一個最大挑戰(zhàn)是質(zhì)量參差不齊。有些文檔可能是模糊的掃描件，有些可能有污漬或折痕，還有些可能包含拼寫錯誤或OCR（光學字符識別）錯誤。一個真正實用的文檔處理模型必須能夠在這些"不完美"的情況下依然表現(xiàn)良好。

FS-DAG在這方面表現(xiàn)出色。研究團隊通過一系列實驗評估了模型對OCR錯誤和拼寫錯誤的魯棒性。他們在測試時人為引入了10%的錯誤（每10個單詞中有1個會被替換為常見的OCR錯誤版本），然后比較各個模型在這種"受干擾"情況下的表現(xiàn)。

結果令人印象深刻：當引入OCR錯誤時，基于純文本的模型（如BERT和DistilBERT）的性能下降了25-38%，而更大型的多模態(tài)模型（如LayoutLMv2）也下降了近20%。相比之下，F(xiàn)S-DAG的性能僅下降了不到1%，展示了驚人的穩(wěn)定性。

這種強大的魯棒性源于FS-DAG的多模態(tài)設計和圖結構。當文本出現(xiàn)錯誤時，模型可以依靠視覺特征和文檔結構的上下文來"猜測"正確的信息。就像人類閱讀一份部分模糊的文檔時，即使某些單詞不清晰，我們也能根據(jù)上下文和文檔布局推斷出意思。

例如，在一份醫(yī)療表格中，即使患者姓名字段中有拼寫錯誤，但由于它的位置（通常在表格頂部）和格式（通常是加粗或特別強調(diào)的），F(xiàn)S-DAG仍然能正確識別這是患者姓名字段。這種魯棒性對于實際應用至關重要，因為它減少了對完美輸入數(shù)據(jù)的依賴，提高了系統(tǒng)在各種真實場景下的可靠性。

四、實驗結果：體型更小卻表現(xiàn)更出色

為了全面評估FS-DAG的性能，研究團隊在多個數(shù)據(jù)集上進行了廣泛測試，包括公開數(shù)據(jù)集WildReceipt和兩個涵蓋多種文檔類型的行業(yè)數(shù)據(jù)集。

行業(yè)數(shù)據(jù)集包括兩大類：第一類包含電子商務發(fā)票、醫(yī)療表格、大學申請表等五種文檔類型；第二類包含醫(yī)療授權表、個人銀行賬戶表、抵押貸款表等七種文檔類型。這些數(shù)據(jù)集代表了企業(yè)在實際應用中可能面臨的各種文檔處理場景。

在所有測試中，F(xiàn)S-DAG與多個基準模型進行了比較，包括BERT、DistilBERT、SDMG-R、LayoutLMv2和LayoutLMv3。測試不僅評估了模型在正常條件下的性能，還評估了它們在面對OCR錯誤時的魯棒性，以及模型的計算效率（訓練時間和推理時間）。

在正常條件下，F(xiàn)S-DAG在第一類數(shù)據(jù)集上達到了98.89%的平均F1分數(shù)，比SDMG-R高出9.75%，比LayoutLMv2高出4.86%。在第二類數(shù)據(jù)集上，F(xiàn)S-DAG達到了99.93%的平均F1分數(shù)，比其他模型都要高。即使在公開數(shù)據(jù)集WildReceipt上，F(xiàn)S-DAG也達到了93.90%的F1分數(shù)，超過了所有比較模型。

當引入OCR錯誤時，F(xiàn)S-DAG的性能僅下降了0.93%（第一類數(shù)據(jù)集）和0.91%（第二類數(shù)據(jù)集），而其他模型的性能下降幅度從2.11%到37.91%不等。這再次證明了FS-DAG在處理不完美輸入時的卓越能力。

在效率方面，盡管FS-DAG的參數(shù)量（81M）比SDMG-R（5M）大，但它比LayoutLMv2（200M）和LayoutLMv3（125M）小得多。訓練時間方面，F(xiàn)S-DAG平均需要21分鐘，比所有比較模型都要快。推理時間（處理一份文檔所需的時間）方面，F(xiàn)S-DAG平均需要773毫秒，比LayoutLMv2（1907毫秒）和LayoutLMv3（1363毫秒）快得多。

研究團隊還進行了詳細的消融研究，評估了FS-DAG各個組件的貢獻。結果表明，預訓練語言模型、預訓練視覺模型、位置嵌入和特殊訓練策略都對模型性能有顯著貢獻，且這些組件組合在一起時效果最佳。

特別值得一提的是，研究還探索了在FS-DAG中使用領域特定語言模型的效果。例如，在處理電子商務發(fā)票時，使用金融領域的語言模型（如ProsusAI/finbert）可以將F1分數(shù)從95.1%提高到98.63%；在處理醫(yī)療表格時，使用醫(yī)療領域的語言模型可以將F1分數(shù)從96.53%提高到98.98%。這進一步證明了FS-DAG模塊化設計的價值，允許用戶根據(jù)特定領域需求選擇最合適的組件。

五、實際應用與影響：從實驗室到企業(yè)的成功轉(zhuǎn)化

FS-DAG不僅在學術測試中表現(xiàn)出色，還已成功應用于實際業(yè)務場景。根據(jù)論文介紹，F(xiàn)S-DAG目前已被50多家客戶采用，并通過大型云服務提供商提供服務，每月處理超過100萬次API調(diào)用。

這種廣泛采用反映了FS-DAG在解決實際業(yè)務問題方面的價值。對于企業(yè)來說，F(xiàn)S-DAG提供了幾個關鍵優(yōu)勢：

首先，它大大降低了適應新文檔類型的成本和時間。傳統(tǒng)上，企業(yè)可能需要收集和標注大量文檔，然后花費數(shù)天甚至數(shù)周進行模型訓練。使用FS-DAG，只需要少量示例和較短的訓練時間就能適應新的文檔類型。

其次，F(xiàn)S-DAG的魯棒性減少了對完美輸入的依賴。在實際應用中，文檔質(zhì)量往往參差不齊，包含各種錯誤和不規(guī)則。FS-DAG能夠在這些不理想條件下保持高性能，減少了錯誤處理和人工干預的需要。

第三，相比大型模型，F(xiàn)S-DAG的較小體積和更高效率降低了部署和運行成本。這對于資源受限的環(huán)境或需要處理大量文檔的場景尤為重要。

FS-DAG適用于多種文檔處理任務，包括文檔分類、關鍵值提取、實體鏈接和圖分類。這使它能夠滿足各種行業(yè)的需求，如金融（處理發(fā)票、銀行文件）、醫(yī)療（處理病歷、保險表格）、物流（處理運輸文件）等。

研究團隊提到，未來的工作將重點擴展FS-DAG的能力，使其支持零樣本學習（完全沒有示例的情況下適應新文檔類型）和進一步提高其在更廣泛行業(yè)場景下的適應性。

結語：小而美的AI模型時代來臨？

FS-DAG的成功給我們帶來了一個有趣的啟示：在追求更大、更強大模型的AI發(fā)展趨勢中，精心設計的小型模型也能在特定任務上表現(xiàn)出色，甚至超越那些參數(shù)量龐大的巨型模型。

這個研究團隊通過聚焦于文檔理解這一具體問題，結合圖神經(jīng)網(wǎng)絡和少樣本學習的優(yōu)勢，創(chuàng)造了一個既高效又實用的解決方案。它不要求海量數(shù)據(jù)，不需要驚人的計算資源，卻能提供企業(yè)真正需要的性能和靈活性。

對于普通用戶和企業(yè)來說，這意味著AI技術的應用門檻正在降低。你不需要是谷歌或微軟那樣的科技巨頭，也能利用先進的AI技術解決具體業(yè)務問題。隨著像FS-DAG這樣的模型變得更加普及，我們可能會看到更多企業(yè)將文檔處理自動化，從而節(jié)省時間和成本，減少錯誤，提高效率。

對于AI研究社區(qū)來說，F(xiàn)S-DAG展示了專注于特定問題領域、結合多種技術優(yōu)勢的研究方向的價值。在追求通用AI的同時，這種針對具體問題的創(chuàng)新同樣重要，能夠更快地將AI的好處帶給更多人。

總的來說，Oracle團隊的這項研究不僅提供了一個解決文檔理解問題的有效工具，也為AI模型設計提供了新的思路：有時候，更聰明的架構設計比簡單地增加模型大小更重要。在特定任務上，一個設計精良的小模型可能比一個龐大但通用的模型表現(xiàn)更好，同時還更容易部署和使用。

如果你對FS-DAG模型感興趣，可以通過GitHub（https://github.com/oracle-samples/fs-dag）了解更多信息，或者查閱發(fā)表在COLING 2025會議上的完整論文。

文檔理解圖神經(jīng)網(wǎng)絡少樣本學習

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學習
模型優(yōu)化

2025-10-22 13:24

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

清華大學研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓練策略，成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示，該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術，實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學習
空間智能

2025-10-22 10:14

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

華中科技大學研究團隊發(fā)現(xiàn)，通過讓AI模型學習解決幾何問題，能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學習方法訓練多個AI模型。實驗結果顯示，幾何訓練在四個空間智能測試基準上都帶來顯著提升，其中最佳模型達到49.6%準確率，超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

2025-10-22 13:24

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn