av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 FinChain:金融領(lǐng)域首個(gè)可驗(yàn)證的符號(hào)化思維鏈推理基準(zhǔn)測(cè)試

FinChain:金融領(lǐng)域首個(gè)可驗(yàn)證的符號(hào)化思維鏈推理基準(zhǔn)測(cè)試

2025-06-09 07:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 07:25 ? 科技行者

2025年6月,來自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)、保加利亞索非亞大學(xué)、法國Quantsquare、美國康奈爾大學(xué)以及印度IIT德里的國際研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)開創(chuàng)性研究——FinChain:金融領(lǐng)域首個(gè)可驗(yàn)證的符號(hào)化思維鏈推理基準(zhǔn)測(cè)試。這項(xiàng)研究以預(yù)印本形式發(fā)表于arXiv(arXiv:2506.02515),旨在解決現(xiàn)有金融領(lǐng)域語言模型在多步推理能力評(píng)估方面的重大缺口。

想象一下,你的理財(cái)顧問在幫你做投資決策時(shí),需要一步步計(jì)算復(fù)雜的財(cái)務(wù)數(shù)據(jù)。如果他只告訴你最終結(jié)果,而不解釋計(jì)算過程,你會(huì)信任這個(gè)建議嗎?這正是現(xiàn)今金融人工智能面臨的核心問題——它們能給出答案,但難以展示可靠的推理過程。

在金融決策中,錯(cuò)誤可能代價(jià)高昂。以往的金融問答數(shù)據(jù)集如FinQA和ConvFinQA主要關(guān)注最終答案的準(zhǔn)確性,卻忽略了中間推理步驟的評(píng)估。就好像只看學(xué)生的最終答案,而不檢查他們的解題過程,這無法全面評(píng)估模型的實(shí)際推理能力。

研究團(tuán)隊(duì)創(chuàng)建了FinChain,這是一個(gè)全新的金融推理基準(zhǔn)測(cè)試,涵蓋12個(gè)金融領(lǐng)域的54個(gè)主題,每個(gè)主題包含5個(gè)參數(shù)化模板(兩個(gè)簡單級(jí)別、兩個(gè)中級(jí)和一個(gè)高級(jí))。這些模板可以生成無數(shù)不同的金融問題,每個(gè)問題都配有完整的、可執(zhí)行的Python代碼,用于驗(yàn)證推理鏈的每一步驟。

簡單來說,F(xiàn)inChain就像一本詳細(xì)的金融推理"食譜書",不僅告訴你最終菜肴(答案)應(yīng)該是什么樣,還詳細(xì)記錄了每一步烹飪過程(推理步驟)。這樣,我們就能評(píng)判模型是真的掌握了金融推理的"烹飪技巧",還是只是幸運(yùn)地猜對(duì)了最終"菜肴"。

研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為ChainEval的評(píng)估指標(biāo),同時(shí)評(píng)估最終答案的正確性和中間推理步驟的一致性。通過對(duì)30個(gè)大型語言模型的測(cè)試,他們發(fā)現(xiàn)即使是最先進(jìn)的模型在處理復(fù)雜的金融推理任務(wù)時(shí)仍有很大的提升空間。

讓我們一起深入探索這個(gè)金融推理的新基準(zhǔn),看看它如何改變我們?cè)u(píng)估和改進(jìn)金融人工智能的方式。

一、理解現(xiàn)有金融推理評(píng)估的局限

在智能手機(jī)導(dǎo)航中,你不僅希望知道最終目的地,還想知道每個(gè)轉(zhuǎn)彎、每條路段的具體指引。同樣,在金融分析中,單純得到最終結(jié)果遠(yuǎn)遠(yuǎn)不夠,我們需要了解每一步計(jì)算和推理是如何進(jìn)行的。

現(xiàn)有的金融推理數(shù)據(jù)集如FinQA和ConvFinQA主要關(guān)注最終的數(shù)值答案,而不要求模型明確生成或證明中間推理步驟。雖然某些例子可能包含中間操作的痕跡(類似于推理步驟),但這些既不全面,也沒有經(jīng)過嚴(yán)格構(gòu)建以反映金融分析的標(biāo)準(zhǔn)。特別是,它們?nèi)狈ν暾?、可?yàn)證的推理鏈表示,而這對(duì)金融決策的透明度和問責(zé)制至關(guān)重要。

研究者指出,這些基準(zhǔn)測(cè)試提供的診斷價(jià)值有限:它們既不能可靠地揭示模型推理在哪里成功或失敗,也不能區(qū)分真正的多步推理和淺層模式匹配。就像一個(gè)學(xué)生可能通過記憶答案而非理解解題方法獲得高分,我們需要更嚴(yán)格的測(cè)試來評(píng)估模型是否真正理解了金融推理的過程。

在數(shù)學(xué)推理領(lǐng)域,GSM-Symbolic(由Mirzadeh等人于2024年提出)引入的符號(hào)化模板范式已成為廣泛采用的方法。該方法重新模板化了GSM8K中的100個(gè)數(shù)學(xué)問題,提供明確的中間步驟和最終答案。研究團(tuán)隊(duì)采用了類似的模板策略,但是完全從頭開始為金融領(lǐng)域構(gòu)建數(shù)據(jù)集。

如圖1所示,每個(gè)符號(hào)化模板編碼了一個(gè)參數(shù)化的金融問題(例如復(fù)利計(jì)算),包含可變的命名實(shí)體和數(shù)值輸入。每個(gè)模板都配有可執(zhí)行的Python代碼,用于計(jì)算中間步驟和最終結(jié)果。這種設(shè)計(jì)支持可擴(kuò)展、無污染地生成一致的示例,既可用于訓(xùn)練也可用于評(píng)估。

二、FinChain:構(gòu)建全面的金融推理基準(zhǔn)

金融領(lǐng)域包含各種不同的領(lǐng)域,每個(gè)領(lǐng)域涉及不同的利益相關(guān)者和下游目標(biāo)。因此,必須以模板化的方式設(shè)計(jì)數(shù)據(jù)集,以支持特定領(lǐng)域的評(píng)估。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)精細(xì)的金融分類系統(tǒng)(圖2),涵蓋12個(gè)高級(jí)領(lǐng)域(如公司金融、可持續(xù)金融、加密貨幣等),每個(gè)領(lǐng)域包含不同的主題,總計(jì)54個(gè)主題。這種分層結(jié)構(gòu)構(gòu)成了現(xiàn)有數(shù)據(jù)集中最詳細(xì)的金融推理任務(wù)分類。

對(duì)于每個(gè)主題,研究者開發(fā)了五個(gè)參數(shù)化模板(兩個(gè)簡單、兩個(gè)中級(jí)、一個(gè)高級(jí)),根據(jù)符號(hào)推理復(fù)雜性和所需領(lǐng)域知識(shí)的不同而變化。例如,在簡單級(jí)別,一個(gè)模板可能只需要計(jì)算簡單的復(fù)利;而在高級(jí)級(jí)別,可能需要結(jié)合多種金融概念進(jìn)行分析,如同時(shí)考慮通貨膨脹、稅收和風(fēng)險(xiǎn)調(diào)整等因素。

每個(gè)模板化實(shí)例包括:

1. 場(chǎng)景卡片:描述主題、難度級(jí)別和采樣輸入(例如,"貼現(xiàn)現(xiàn)金流估值,高級(jí)")。

2. 可執(zhí)行的Python推理步驟鏈:基于特定領(lǐng)域的方程和概念。由于鏈中的每個(gè)操作都是明確且可執(zhí)行的,這個(gè)基準(zhǔn)支持完全的機(jī)器可驗(yàn)證性:模型輸出中任何虛構(gòu)、跳過或錯(cuò)誤的步驟都可以被自動(dòng)檢測(cè)。

這與現(xiàn)有數(shù)據(jù)集如FinQA和ConvFinQA形成鮮明對(duì)比,后者只監(jiān)督最終答案。就像檢查學(xué)生解題過程的老師,F(xiàn)inChain關(guān)注每一步的正確性,而不僅僅是最終結(jié)果。

數(shù)據(jù)創(chuàng)建過程首先確定和定義金融領(lǐng)域,這一步驟參考了已建立的文獻(xiàn)(如Bodie等人2025年的著作)并由金融專家指導(dǎo)。通過這個(gè)過程,研究團(tuán)隊(duì)確定了12個(gè)不同的金融領(lǐng)域。為了在每個(gè)領(lǐng)域內(nèi)生成主題,他們從文獻(xiàn)中提取相關(guān)段落,并使用領(lǐng)域名稱作為提示,讓ChatGPT提取候選金融主題。然后,金融專家篩選和完善這些輸出,最終得到54個(gè)金融主題,平均每個(gè)領(lǐng)域4.5個(gè)主題。

研究團(tuán)隊(duì)還實(shí)施了嚴(yán)格的質(zhì)量控制流程,包括初始模板生成后的理智檢查和專家驗(yàn)證。在理智檢查階段,他們處理了幾個(gè)常見問題:跨國不一致性、精度不匹配和輸入規(guī)范不完整。在專家檢查階段,他們使用另一個(gè)大型語言模型(Claude)評(píng)估每個(gè)問題-解決方案模板的合理性,并將標(biāo)記為潛在有缺陷的模板升級(jí)給金融專家進(jìn)行最終判斷。

三、ChainEval:評(píng)估推理鏈的新方法

想象一下,你在評(píng)判一場(chǎng)烹飪比賽。你不僅要嘗嘗最終菜肴的味道,還要觀察廚師是否按照正確的步驟和技巧準(zhǔn)備食材、調(diào)味和烹飪。同樣,評(píng)估金融推理模型時(shí),我們需要檢查最終答案和中間推理步驟是否都正確。

研究團(tuán)隊(duì)提出了ChainEval,一個(gè)評(píng)估框架,從兩個(gè)方面評(píng)估模型輸出:最終答案正確性和推理步驟一致性。這種逐步語義對(duì)齊方法受到先前關(guān)于推理一致性工作的啟發(fā)(Lyu等人2023年;Golovneva等人2023年),但研究團(tuán)隊(duì)通過明確建模中間結(jié)果的驗(yàn)證,通過步驟-答案匹配來擴(kuò)展它。此外,與主要評(píng)估文本一致性的先前工作不同,他們的框架還驗(yàn)證最終數(shù)值答案,確保對(duì)模型性能的全面視圖,同時(shí)評(píng)估推理忠實(shí)性和最終任務(wù)保真度。

ChainEval的工作原理如下:

首先,定義標(biāo)準(zhǔn)解決方案S*和預(yù)測(cè)解決方案S分別為m和n個(gè)步驟的序列: S* = (s*?, ..., s*?), S = (s?, ..., s?)

其中s*?和s?表示S*和S中的單個(gè)步驟。同時(shí)定義函數(shù)StepRes(·),提取每個(gè)步驟計(jì)算的中間結(jié)果。

然后,通過兩個(gè)組件測(cè)量推理忠實(shí)性:

1. 步驟語義相似性:使用句子編碼器Enc(·)嵌入每個(gè)步驟,計(jì)算標(biāo)準(zhǔn)步驟和預(yù)測(cè)步驟對(duì)(s*?, s?)之間的余弦相似度,得到分?jǐn)?shù)SS(·)∈[0,1]。

2. 步驟答案匹配:評(píng)估中間步驟s*?和s?計(jì)算的結(jié)果是否一致。引入函數(shù)AM(·),允許對(duì)數(shù)值結(jié)果有小的容差(設(shè)為5%),以考慮數(shù)值舍入傳播的誤差。

當(dāng)一對(duì)步驟的語義相似度超過閾值,且對(duì)應(yīng)的中間結(jié)果一致時(shí),這對(duì)步驟被認(rèn)為是對(duì)齊的?;诖?,計(jì)算步驟級(jí)別的召回率和精確率,最終計(jì)算步驟F1分?jǐn)?shù),這是步驟級(jí)別精確率和召回率的調(diào)和平均值。

最后,通過檢查預(yù)測(cè)解決方案中最后一步的結(jié)果是否與標(biāo)準(zhǔn)解決方案的最后一步一致,評(píng)估最終答案的正確性。

這種全面的評(píng)估方法不僅檢查模型是否得到了正確的最終答案,還驗(yàn)證它是否按照正確的推理路徑得到了答案,這對(duì)金融領(lǐng)域尤為重要,因?yàn)樵谶@里,過程的透明度和可審計(jì)性往往與結(jié)果本身一樣重要。

四、大規(guī)模模型評(píng)估與發(fā)現(xiàn)

研究團(tuán)隊(duì)對(duì)30個(gè)大型語言模型進(jìn)行了全面評(píng)估,使用了2,700個(gè)測(cè)試用例(54個(gè)主題×5個(gè)模板×10個(gè)實(shí)例)。所有模型都在一致的解碼配置下進(jìn)行評(píng)估:溫度=0.7,top-p=0.95,最大令牌限制為4,096。他們使用了提出的ChainEval指標(biāo)作為評(píng)估最終答案正確性和中間推理步驟一致性的主要指標(biāo)。

評(píng)估的模型分為六類:

1. 通用模型:作為領(lǐng)域無關(guān)的強(qiáng)基線,包括GPT-4.1、GPT-4o mini、LLaMA 3系列、Mistral、Mixtral等。

2. 通用推理模型:專為廣泛多步推理任務(wù)訓(xùn)練或微調(diào)的模型,如o3-mini、DeepSeek-R1系列、Qwen3等。

3. 金融微調(diào)模型:通過指令調(diào)整或在金融語料庫上繼續(xù)預(yù)訓(xùn)練而適應(yīng)的模型,如Finance-LLM、FinanceConnect等。

4. 金融推理模型:專為金融多步推理設(shè)計(jì)的模型,如Fino1和FinR1。

5. 數(shù)學(xué)模型:在數(shù)學(xué)中心語料庫上微調(diào)的模型,如Mathstral和Qwen2.5 Math。

6. 數(shù)學(xué)推理模型:在數(shù)學(xué)中擅長逐步問題解決的模型,如WizardMath和MetaMath。

表1展示了模型在FinChain上的綜合評(píng)估結(jié)果,包括ChainEval的四個(gè)組成部分:最終答案正確性(FAC)、步驟精確率/召回率/F1,以及ROUGE和BERTScore評(píng)分。

整體而言,通用模型如LLaMA 3.3 (70B) Instruct和GPT-4.1在準(zhǔn)確性和一致性方面表現(xiàn)領(lǐng)先。這些模型也表現(xiàn)出適度的方差,表明它們不僅具有高性能,還能在各種金融場(chǎng)景中穩(wěn)健地泛化。關(guān)鍵的是,結(jié)果凸顯了模型大小與推理能力之間的強(qiáng)相關(guān)性。較大的模型始終優(yōu)于較小的模型,即使后者經(jīng)過領(lǐng)域特定數(shù)據(jù)的明確訓(xùn)練,這表明領(lǐng)域暴露本身是不夠的;穩(wěn)健的推理性能還取決于處理符號(hào)和多跳推理的足夠模型容量。

開源模型如Qwen3 (8B)盡管規(guī)模較小,也表現(xiàn)出競(jìng)爭(zhēng)力,這可能歸因于其在最新版本中增強(qiáng)的推理能力。金融推理模型,如Fin-R1表現(xiàn)出合理的符號(hào)對(duì)齊,但在最終答案準(zhǔn)確性方面表現(xiàn)不佳。

研究團(tuán)隊(duì)還分析了模型在不同金融領(lǐng)域的表現(xiàn)(圖3)。對(duì)于非推理模型,結(jié)構(gòu)化和定量領(lǐng)域如個(gè)人金融和加密金融表現(xiàn)出較高的準(zhǔn)確率。這些領(lǐng)域往往需要直接計(jì)算或熟悉的術(shù)語,通用和數(shù)學(xué)調(diào)優(yōu)模型能夠較好地處理。相比之下,風(fēng)險(xiǎn)管理和可持續(xù)金融等領(lǐng)域表現(xiàn)明顯下降,這可能是因?yàn)樗鼈冃枰嗖竭壿?、含糊?chǎng)景或難以符號(hào)化編碼的監(jiān)管細(xì)微差別。

對(duì)于推理模型,在傳統(tǒng)上具有挑戰(zhàn)性的領(lǐng)域如金融比率和公司金融表現(xiàn)更強(qiáng),表明這些模型在處理多步符號(hào)結(jié)構(gòu)方面有所改進(jìn)。然而,即使是推理模型在可持續(xù)金融和并購領(lǐng)域仍表現(xiàn)相對(duì)較弱,這需要細(xì)微的理解和特定領(lǐng)域的推理策略。

研究團(tuán)隊(duì)還評(píng)估了模型在不同難度級(jí)別下的魯棒性(圖4)。所有模型在復(fù)雜性增加時(shí)都表現(xiàn)出性能下降,突顯了執(zhí)行更長金融推理鏈的難度。其中,LLaMA 3.3 (70B) Instruct因其強(qiáng)大的絕對(duì)性能和漸進(jìn)下降而脫穎而出,表明其在組合泛化方面表現(xiàn)更好。相比之下,較小的模型如Fin-R1 (7B)下降更為嚴(yán)重,表明在推理深度增加時(shí)難以保持推理連貫性。

最后,研究團(tuán)隊(duì)測(cè)試了在模板中改變實(shí)體名稱和數(shù)值對(duì)模型推理性能的影響。較大模型如GPT-4.1在所有設(shè)置中保持一致的性能,反映出對(duì)名稱和值輸入的強(qiáng)大抽象能力。然而,較小的模型表現(xiàn)出不同的敏感性。例如,o3-mini在僅改變值時(shí)比僅改變名稱時(shí)獲得更高的準(zhǔn)確率,GPT-4o-mini也表現(xiàn)出輕微的不穩(wěn)定性,在不同條件下性能略有變化。

五、結(jié)論與未來展望

談到金融人工智能的未來,F(xiàn)inChain代表了一個(gè)重要的里程碑。它不僅是一個(gè)評(píng)估工具,更是一面鏡子,揭示了當(dāng)前最先進(jìn)模型在處理復(fù)雜金融推理時(shí)的真實(shí)能力和局限性。

歸根結(jié)底,F(xiàn)inChain為我們提供了一種全新的方式來評(píng)估金融語言模型:不僅看它們能否得出正確答案,還要看它們是否通過正確的思考過程得出這些答案。這就像不僅評(píng)判廚師做出的菜肴,還要評(píng)判他們的烹飪技巧和方法。

研究發(fā)現(xiàn),即使是最強(qiáng)大的模型在處理復(fù)雜的多步金融推理時(shí)仍有相當(dāng)大的提升空間。這提醒我們,盡管人工智能在金融領(lǐng)域取得了令人印象深刻的進(jìn)展,但真正掌握專業(yè)金融推理的能力仍然是一個(gè)進(jìn)行中的挑戰(zhàn)。

特別值得注意的是,模型大小似乎是決定推理能力的關(guān)鍵因素。較大的通用模型往往優(yōu)于專門為金融領(lǐng)域訓(xùn)練的較小模型,這表明僅僅接觸領(lǐng)域知識(shí)是不夠的;模型還需要足夠的容量來處理復(fù)雜的符號(hào)推理。

展望未來,研究團(tuán)隊(duì)計(jì)劃擴(kuò)展FinChain以支持多語言和區(qū)域特定場(chǎng)景,并探索逐步推理軌跡如何增強(qiáng)模型生成答案的可信度和事實(shí)性,特別是在真實(shí)文檔的長篇金融問答中。這條研究路線可能有助于將符號(hào)金融推理與事實(shí)驗(yàn)證結(jié)合起來,支持更強(qiáng)大、更可解釋的金融AI系統(tǒng)。

對(duì)于普通人來說,這項(xiàng)研究意味著未來的金融AI工具可能不僅會(huì)告訴你"應(yīng)該投資什么",還會(huì)清晰地解釋"為什么"和"如何"得出這些建議。這種透明度對(duì)于建立信任至關(guān)重要,尤其是在金融這樣高風(fēng)險(xiǎn)的領(lǐng)域。

如果你對(duì)這項(xiàng)研究感興趣,可以通過GitHub(https://github.com/mbzuai-nlp/finchain)訪問所有FinChain的模板和評(píng)估指標(biāo)。這是一個(gè)開源項(xiàng)目,旨在推動(dòng)金融AI的透明度和可靠性向前發(fā)展。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-