大家好!今天要跟大家聊一項(xiàng)來(lái)自馬里蘭大學(xué)和Adobe研究院團(tuán)隊(duì)的創(chuàng)新研究。這項(xiàng)名為"Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents"(跟隨流程:神經(jīng)符號(hào)代理助力流程圖精細(xì)歸因)的研究由Manan Suri、Puneet Mathur、Nedim Lipka、Franck Dernoncourt、Ryan A. Rossi、Vivek Gupta和Dinesh Manocha共同完成,發(fā)表于2025年6月2日的arXiv預(yù)印本平臺(tái)(arXiv:2506.01344v1)。
一、流程圖:簡(jiǎn)單卻充滿(mǎn)挑戰(zhàn)的視覺(jué)工具
流程圖是我們?nèi)粘I钪蟹浅3R?jiàn)的一種可視化工具,就像是一張?jiān)敿?xì)的路線圖,引導(dǎo)我們從起點(diǎn)走到終點(diǎn)。無(wú)論是在軟件開(kāi)發(fā)、業(yè)務(wù)流程設(shè)計(jì),還是說(shuō)明書(shū)制作中,流程圖都扮演著至關(guān)重要的角色。想象一下,當(dāng)你按照宜家家具的組裝說(shuō)明書(shū)操作時(shí),那些告訴你"如果螺絲A太長(zhǎng),則使用墊片B"的步驟圖,本質(zhì)上就是一種流程圖。
然而,盡管流程圖看起來(lái)簡(jiǎn)單直觀,但對(duì)于人工智能系統(tǒng)來(lái)說(shuō),理解它們卻是一項(xiàng)艱巨的挑戰(zhàn)。為什么呢?這是因?yàn)榱鞒虉D具有非線性的結(jié)構(gòu)和復(fù)雜的視覺(jué)-文本關(guān)系。想象一下一張迷宮地圖,上面不僅有各種岔路和循環(huán)路徑,每個(gè)路口還標(biāo)注著各種條件和說(shuō)明文字。現(xiàn)有的視覺(jué)-語(yǔ)言模型(如GPT-4V等)在處理這種復(fù)雜結(jié)構(gòu)時(shí),經(jīng)常會(huì)"產(chǎn)生幻覺(jué)"——也就是說(shuō),它們會(huì)憑空捏造不存在的連接和決策路徑。
這種情況在關(guān)鍵領(lǐng)域如物流、醫(yī)療和工程設(shè)計(jì)中尤為危險(xiǎn)。想象一下,如果一個(gè)AI系統(tǒng)錯(cuò)誤理解了醫(yī)療處理流程圖中的"如果患者體溫高于38.5度,則立即通知醫(yī)生"這一步驟,可能會(huì)導(dǎo)致嚴(yán)重的后果。
二、流程圖精細(xì)歸因:一項(xiàng)全新的挑戰(zhàn)任務(wù)
為了解決這個(gè)問(wèn)題,馬里蘭大學(xué)和Adobe研究院的研究團(tuán)隊(duì)提出了一項(xiàng)全新的任務(wù):流程圖精細(xì)歸因(Fine-grained Flowchart Attribution)。這聽(tīng)起來(lái)可能有點(diǎn)抽象,讓我用一個(gè)簡(jiǎn)單的例子來(lái)解釋。
想象你使用GPS導(dǎo)航系統(tǒng)開(kāi)車(chē)前往一個(gè)新地方。通常,GPS會(huì)告訴你"500米后右轉(zhuǎn)"、"進(jìn)入環(huán)島后取第二個(gè)出口"等指令。現(xiàn)在,假設(shè)有一天你對(duì)GPS說(shuō):"解釋一下為什么你建議我走這條路線而不是高速公路?"一個(gè)好的GPS應(yīng)該能夠明確地告訴你:"因?yàn)楦咚俟飞嫌幸黄鸾煌ㄊ鹿?,所以我選擇了這條替代路線,雖然距離稍長(zhǎng),但預(yù)計(jì)可以節(jié)省15分鐘的行程時(shí)間。"
流程圖精細(xì)歸因就像是要求AI系統(tǒng)不僅給出答案,還要明確指出這個(gè)答案是基于流程圖中哪些具體部分得出的。它需要AI系統(tǒng)能夠跟蹤并標(biāo)識(shí)出支持其回答的完整決策路徑。這種能力對(duì)于確保AI系統(tǒng)在處理流程圖時(shí)的可靠性和可解釋性至關(guān)重要。
三、FlowExplainBench:評(píng)估流程圖歸因的新基準(zhǔn)
為了系統(tǒng)評(píng)估流程圖歸因的效果,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為FlowExplainBench的全新評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)包含了1000多個(gè)高質(zhì)量的流程圖歸因標(biāo)注,涵蓋了不同的風(fēng)格、領(lǐng)域和問(wèn)題類(lèi)型。
FlowExplainBench的設(shè)計(jì)非常周到,就像是一個(gè)全面的測(cè)試場(chǎng)地。它包含三種不同的數(shù)據(jù)來(lái)源:Code(與編程相關(guān)的流程圖)、Wiki(來(lái)自維基百科和教程網(wǎng)站的流程圖)和Instruct(更加通用的指導(dǎo)性流程圖)。這些流程圖來(lái)自各種領(lǐng)域,從烹飪食譜到軟件開(kāi)發(fā)流程不等。
基準(zhǔn)測(cè)試中的問(wèn)題類(lèi)型也很多樣化,包括: - 事實(shí)檢索(比如"流程中的最大節(jié)點(diǎn)數(shù)量是多少?") - 應(yīng)用場(chǎng)景(如"如果Sophie選擇在線計(jì)算器但不確定是否需要考慮海拔因素,她應(yīng)該如何調(diào)整轉(zhuǎn)換過(guò)程?") - 流程引用(例如"使用已準(zhǔn)備好的物品尋求幫助之后的下一步是什么?") - 拓?fù)浣Y(jié)構(gòu)(比如"節(jié)點(diǎn)A是否直接連接到節(jié)點(diǎn)B?")
研究團(tuán)隊(duì)還創(chuàng)新地引入了四種不同的流程圖視覺(jué)風(fēng)格,包括單色、多色、默認(rèn)Mermaid樣式和黑白樣式,使得評(píng)估更加全面和貼近現(xiàn)實(shí)場(chǎng)景。想象這就像測(cè)試一個(gè)翻譯系統(tǒng)不僅能處理印刷體文字,還能處理手寫(xiě)體、草書(shū)等不同字體一樣。
標(biāo)注過(guò)程也極為嚴(yán)謹(jǐn),首先使用GPT-4進(jìn)行初步標(biāo)注,然后由兩位人類(lèi)評(píng)估者進(jìn)行驗(yàn)證。這些評(píng)估者之間,以及評(píng)估者與GPT-4之間的一致性都非常高,確保了基準(zhǔn)的質(zhì)量和可靠性。
四、FlowPathAgent:基于神經(jīng)符號(hào)的智能代理
研究的核心貢獻(xiàn)是提出了一個(gè)名為FlowPathAgent的神經(jīng)符號(hào)代理系統(tǒng)。這個(gè)系統(tǒng)采用了一種創(chuàng)新的方法來(lái)解決流程圖歸因問(wèn)題,將神經(jīng)網(wǎng)絡(luò)的感知能力與符號(hào)推理的精確性結(jié)合起來(lái)。
想象FlowPathAgent就像是一位既有敏銳視力又精通邏輯分析的偵探。這位偵探在工作時(shí)分三個(gè)主要步驟:
**第一步:流程圖組件標(biāo)記**
FlowPathAgent首先通過(guò)一個(gè)名為FlowMask2Former的工具對(duì)流程圖進(jìn)行分割和標(biāo)記。這個(gè)過(guò)程就像是偵探先用特殊眼鏡仔細(xì)觀察現(xiàn)場(chǎng),將每個(gè)物品都標(biāo)記出來(lái)。例如,它會(huì)識(shí)別出流程圖中的每個(gè)節(jié)點(diǎn)(方框、菱形等)并為它們貼上標(biāo)簽(A、B、C等)。
這一步確保了視覺(jué)元素與后續(xù)步驟中生成的符號(hào)表示之間有明確的對(duì)應(yīng)關(guān)系。研究團(tuán)隊(duì)使用了FlowVQA數(shù)據(jù)集的訓(xùn)練分割部分來(lái)訓(xùn)練這個(gè)組件,并進(jìn)行了樣式多樣化處理,以確保它能夠適應(yīng)各種不同風(fēng)格的流程圖。
**第二步:圖構(gòu)建**
接下來(lái),F(xiàn)lowPathAgent使用Flow2Mermaid VLM工具將標(biāo)記后的流程圖轉(zhuǎn)換為一種稱(chēng)為Mermaid的符號(hào)圖表示。這就像是偵探將現(xiàn)場(chǎng)觀察到的所有信息整理成一張?jiān)敿?xì)的關(guān)系網(wǎng)絡(luò)圖。
這個(gè)符號(hào)圖捕捉了流程圖的結(jié)構(gòu)特性,包括布爾條件邊和節(jié)點(diǎn)級(jí)別的語(yǔ)句映射。研究團(tuán)隊(duì)還定義了一套全面的工具來(lái)操作這個(gè)符號(hào)圖,使系統(tǒng)能夠進(jìn)行結(jié)構(gòu)化的函數(shù)調(diào)用,從而推理流程圖的邏輯結(jié)構(gòu)。
**第三步:神經(jīng)符號(hào)代理分析**
最后,F(xiàn)lowPathAgent以一種動(dòng)態(tài)交互的方式與符號(hào)圖進(jìn)行交互,生成歸因路徑。這就像偵探根據(jù)線索網(wǎng)絡(luò)進(jìn)行推理,找出真相的完整路徑。
這個(gè)過(guò)程包括幾個(gè)相互依賴(lài)的步驟: 1. 節(jié)點(diǎn)選擇:代理首先確定需要探索的節(jié)點(diǎn),參考它們?cè)诹鞒虉D圖像中的標(biāo)簽。 2. 工具選擇:代理根據(jù)推理選擇必要的符號(hào)工具及其函數(shù)參數(shù)。 3. 工具執(zhí)行:在符號(hào)圖表示上執(zhí)行選定的工具,提取相關(guān)信息。 4. 工具響應(yīng)分析:代理解釋工具使用的觀察結(jié)果,生成流程圖中歸因陳述的節(jié)點(diǎn)路徑。 5. 映射回原始流程圖:最后,將歸因路徑的節(jié)點(diǎn)標(biāo)簽映射回流程圖圖像,使用標(biāo)記階段獲得的分割區(qū)域。
整個(gè)過(guò)程非常精妙,就像是偵探先拆解整個(gè)案件,然后通過(guò)邏輯推理找出關(guān)鍵線索鏈,最后將這些線索在原始現(xiàn)場(chǎng)中標(biāo)記出來(lái),形成一個(gè)完整的證據(jù)鏈。
五、實(shí)驗(yàn)結(jié)果:大幅度提升流程圖理解能力
研究團(tuán)隊(duì)在FlowExplainBench上對(duì)FlowPathAgent進(jìn)行了全面評(píng)估,并與多個(gè)強(qiáng)基線方法進(jìn)行了比較,包括Kosmos-2、LISA、SA2VA、VisProg等。結(jié)果令人印象深刻:FlowPathAgent在所有測(cè)試中都顯著優(yōu)于這些基線方法,F(xiàn)1分?jǐn)?shù)(準(zhǔn)確度的一種衡量方式)提高了10-14個(gè)百分點(diǎn)。
具體來(lái)說(shuō),在FlowExplainBench的整體評(píng)估中,F(xiàn)lowPathAgent的F1分?jǐn)?shù)達(dá)到了77.20%,而最接近的競(jìng)爭(zhēng)對(duì)手GPT4o SoM的F1分?jǐn)?shù)為70.75%。在各個(gè)子集上,F(xiàn)lowPathAgent也始終保持領(lǐng)先:在Code子集上F1分?jǐn)?shù)為77.27%,在Wiki子集上為75.23%,在Instruct子集上為80.23%。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的錯(cuò)誤分析,發(fā)現(xiàn)FlowPathAgent在處理節(jié)點(diǎn)數(shù)量較多的復(fù)雜流程圖時(shí)表現(xiàn)尤為出色。這是因?yàn)樵摲椒▽⒘鞒虉D元素作為邏輯實(shí)體處理,而不僅僅依賴(lài)于它們的視覺(jué)表示。通過(guò)利用神經(jīng)符號(hào)方法,F(xiàn)lowPathAgent能夠更有效地處理和歸因復(fù)雜的流程圖結(jié)構(gòu),即使在節(jié)點(diǎn)分布的長(zhǎng)尾上也能提供穩(wěn)健可靠的歸因。
在質(zhì)性分析中,研究人員發(fā)現(xiàn)其他基線方法存在各種問(wèn)題:GPT4o零樣本邊界框方法無(wú)法生成與任何流程圖節(jié)點(diǎn)重疊或匹配的邊界框;LISA傾向于過(guò)度泛化,將整個(gè)流程圖圖像歸因;Kosmos-2難以分割與語(yǔ)句相關(guān)的節(jié)點(diǎn)。相比之下,F(xiàn)lowPathAgent能夠準(zhǔn)確檢測(cè)和歸因整個(gè)流程圖路徑,準(zhǔn)確識(shí)別所有相關(guān)節(jié)點(diǎn)。
六、實(shí)際應(yīng)用前景與未來(lái)發(fā)展
雖然FlowPathAgent已經(jīng)展示了令人印象深刻的性能,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了一些局限性和未來(lái)可改進(jìn)的方向。
首先,盡管FlowPathAgent有效地集成了符號(hào)推理,但它構(gòu)建在FlowMask2Former進(jìn)行分割和Flow2Mermaid VLM進(jìn)行視覺(jué)流程圖到mermaid代碼轉(zhuǎn)換的基礎(chǔ)上。作為任何模塊化系統(tǒng),這些組件中的潛在錯(cuò)誤可能會(huì)影響整體性能。然而,該框架保持靈活,允許無(wú)縫集成更適合特定場(chǎng)景的替代模型。
其次,雖然FlowExplainBench涵蓋了各種流程圖結(jié)構(gòu),但尚未包含所有現(xiàn)實(shí)世界的變體,如手繪圖表。主要挑戰(zhàn)在于高質(zhì)量數(shù)據(jù)集的可用性和全面注釋。雖然現(xiàn)有方法能夠處理手繪流程圖分割,但將它們擴(kuò)展到歸因仍然是一個(gè)開(kāi)放的研究領(lǐng)域。
最后,該方法設(shè)計(jì)用于靜態(tài)流程圖,將其擴(kuò)展到動(dòng)態(tài)或交互式系統(tǒng)為進(jìn)一步研究提供了機(jī)會(huì)。許多現(xiàn)實(shí)世界的應(yīng)用涉及不斷發(fā)展的決策過(guò)程,可能受益于能夠處理順序更新和條件依賴(lài)的模型。
這項(xiàng)研究的潛在應(yīng)用非常廣泛。在醫(yī)療保健領(lǐng)域,F(xiàn)lowPathAgent可以幫助醫(yī)生理解和解釋復(fù)雜的治療流程圖,確保每個(gè)步驟都得到正確理解和執(zhí)行。在軟件工程中,它可以幫助開(kāi)發(fā)人員驗(yàn)證系統(tǒng)流程圖,找出潛在的邏輯錯(cuò)誤或不一致之處。在教育領(lǐng)域,它可以作為一個(gè)智能輔導(dǎo)工具,幫助學(xué)生理解復(fù)雜的決策過(guò)程和算法。
七、結(jié)論:流程圖理解的新里程碑
總的來(lái)說(shuō),這項(xiàng)研究標(biāo)志著流程圖理解和歸因領(lǐng)域的一個(gè)重要進(jìn)步。FlowPathAgent通過(guò)結(jié)合神經(jīng)網(wǎng)絡(luò)的感知能力和符號(hào)推理的精確性,成功地提高了流程圖歸因的準(zhǔn)確性和可靠性。FlowExplainBench作為一個(gè)全面的評(píng)估基準(zhǔn),也為未來(lái)的研究提供了寶貴的資源。
這項(xiàng)工作的意義遠(yuǎn)不止于學(xué)術(shù)界。隨著人工智能系統(tǒng)越來(lái)越多地參與到需要精確理解結(jié)構(gòu)化信息的任務(wù)中,F(xiàn)lowPathAgent這樣的方法將變得越來(lái)越重要。它可以幫助確保AI系統(tǒng)在處理流程圖時(shí)的可靠性和可解釋性,尤其是在醫(yī)療、金融和工程等關(guān)鍵領(lǐng)域。
就像我們?cè)陂_(kāi)車(chē)時(shí)希望GPS不僅能告訴我們下一步怎么走,還能解釋為什么選擇這條路線一樣,我們也希望AI系統(tǒng)能夠清晰地解釋它們的推理過(guò)程。FlowPathAgent正是朝著這個(gè)方向邁出的重要一步。
對(duì)于有興趣深入了解這項(xiàng)研究的讀者,可以通過(guò)arXiv(arXiv:2506.01344v1)訪問(wèn)完整論文。研究團(tuán)隊(duì)也表示,代碼和數(shù)據(jù)將在論文被接受后公開(kāi)發(fā)布。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。