當(dāng)我們談?wù)撊斯ぶ悄茉诮鹑陬I(lǐng)域的應(yīng)用時(shí),大多數(shù)人可能會(huì)想到自動(dòng)投資、風(fēng)險(xiǎn)評(píng)估或欺詐檢測(cè)系統(tǒng)。然而,在金融世界的幕后,還有一個(gè)至關(guān)重要卻容易被忽視的場(chǎng)景:金融會(huì)議。這些會(huì)議通常持續(xù)一到兩小時(shí),包含海量的信息交流,是金融決策和戰(zhàn)略制定的關(guān)鍵環(huán)節(jié)。如何利用人工智能技術(shù)來(lái)理解和處理這些冗長(zhǎng)的會(huì)議內(nèi)容,一直是一個(gè)亟待解決的挑戰(zhàn)。
2025年6月,由蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的朱杰、李軍輝,阿里云錢進(jìn)團(tuán)隊(duì)的溫亞龍、李賢東、郭力帆、陳鋒等研究人員聯(lián)合發(fā)表了一篇?jiǎng)?chuàng)新性論文《M?FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset》。這項(xiàng)研究首次推出了一個(gè)專為金融會(huì)議理解而設(shè)計(jì)的多語(yǔ)言、多行業(yè)、多任務(wù)評(píng)估數(shù)據(jù)集,為大型語(yǔ)言模型在金融會(huì)議場(chǎng)景下的應(yīng)用提供了重要的評(píng)估基準(zhǔn)。
讓我們一起深入了解這個(gè)名為M?FinMeeting的數(shù)據(jù)集,看看它如何解決金融會(huì)議理解中的核心挑戰(zhàn),以及它對(duì)金融科技發(fā)展的深遠(yuǎn)影響。
一、為什么我們需要一個(gè)金融會(huì)議理解數(shù)據(jù)集?
想象一下,你是一位金融分析師,每周需要參加十幾場(chǎng)長(zhǎng)達(dá)兩小時(shí)的投資會(huì)議、季度財(cái)報(bào)電話會(huì)或行業(yè)討論會(huì)。會(huì)后,你需要整理會(huì)議要點(diǎn)、回答同事的問題,以及提取關(guān)鍵的問答內(nèi)容用于后續(xù)分析。這些工作不僅耗時(shí),還容易出現(xiàn)遺漏或誤解。如果有一個(gè)人工智能助手能幫你自動(dòng)總結(jié)會(huì)議內(nèi)容,提取重要問答,并回答你的疑問,那將大大提高工作效率。
然而,現(xiàn)有的金融領(lǐng)域人工智能評(píng)估基準(zhǔn)大多基于新聞文章、收益報(bào)告或公告,很少涉及真實(shí)的金融會(huì)議場(chǎng)景。比如,英文領(lǐng)域有FinQA、ConvFinQA、FLUE等數(shù)據(jù)集,中文領(lǐng)域有CFLUE和CCKS系列共享任務(wù),但這些數(shù)據(jù)集大多來(lái)源于金融新聞和收益報(bào)告,缺乏真實(shí)金融會(huì)議的內(nèi)容,而且通常只支持單一語(yǔ)言(英文或中文)。
金融會(huì)議與新聞報(bào)道或財(cái)報(bào)有著本質(zhì)區(qū)別。會(huì)議是一個(gè)動(dòng)態(tài)交互的過程,參與者之間的討論、提問和回答構(gòu)成了復(fù)雜的信息網(wǎng)絡(luò)。會(huì)議內(nèi)容往往冗長(zhǎng)、非結(jié)構(gòu)化,且充滿了行業(yè)術(shù)語(yǔ)和專業(yè)知識(shí)。因此,理解和處理金融會(huì)議內(nèi)容需要特殊的評(píng)估基準(zhǔn)。
正是基于這一需求,研究團(tuán)隊(duì)開發(fā)了M?FinMeeting數(shù)據(jù)集,它具有三個(gè)關(guān)鍵特點(diǎn):
首先,M?FinMeeting支持多語(yǔ)言,包括英語(yǔ)、中文和日語(yǔ),這使得模型能夠在不同語(yǔ)言環(huán)境下理解金融討論。
其次,它涵蓋全球行業(yè)分類標(biāo)準(zhǔn)(GICS)定義的所有11個(gè)行業(yè)部門,確保評(píng)估基準(zhǔn)覆蓋廣泛的金融活動(dòng)范圍。
最后,M?FinMeeting包含三個(gè)任務(wù):摘要生成、問答對(duì)提取和問題回答,這些任務(wù)貼近金融專業(yè)人士的實(shí)際需求,提供了更全面的理解能力評(píng)估。
二、M?FinMeeting數(shù)據(jù)集的構(gòu)建與特點(diǎn)
M?FinMeeting數(shù)據(jù)集不是憑空想象出來(lái)的,而是基于數(shù)百個(gè)真實(shí)金融會(huì)議精心構(gòu)建的。研究團(tuán)隊(duì)首先收集了大量金融會(huì)議的音頻文件,包括公開路演、券商策略會(huì)議、行業(yè)交流會(huì)和財(cái)報(bào)說(shuō)明會(huì)等各類會(huì)議。收集過程遵循四個(gè)標(biāo)準(zhǔn):時(shí)效性(大多數(shù)會(huì)議應(yīng)來(lái)自近年)、長(zhǎng)度(優(yōu)先選擇較長(zhǎng)的音頻文件)、分類性(音頻文件必須符合GICS中定義的類別)以及權(quán)威性(所有音頻文件均來(lái)自研究團(tuán)隊(duì)的金融公司合作伙伴,受版權(quán)保護(hù))。
收集到的音頻文件使用Whisper自動(dòng)語(yǔ)音識(shí)別工具轉(zhuǎn)錄為文本,然后經(jīng)過人工校正。研究團(tuán)隊(duì)采取嚴(yán)格措施確保轉(zhuǎn)錄文本中不包含敏感或個(gè)人身份信息。最終,M?FinMeeting包含100個(gè)英語(yǔ)會(huì)議、400個(gè)中文會(huì)議和100個(gè)日語(yǔ)會(huì)議,每個(gè)會(huì)議平均持續(xù)一小時(shí)左右。
這個(gè)數(shù)據(jù)集的規(guī)模令人印象深刻。英文會(huì)議平均包含10,086個(gè)標(biāo)記(token),中文會(huì)議平均11,740個(gè)標(biāo)記,日語(yǔ)會(huì)議平均13,284個(gè)標(biāo)記??紤]到金融會(huì)議通常持續(xù)一到兩小時(shí),這些長(zhǎng)文本數(shù)據(jù)為評(píng)估大型語(yǔ)言模型處理長(zhǎng)上下文的能力提供了理想的測(cè)試場(chǎng)景。
M?FinMeeting數(shù)據(jù)集還按照文本長(zhǎng)度分為五組:0-5K標(biāo)記、5-10K標(biāo)記、10-15K標(biāo)記、15-20K標(biāo)記和20K標(biāo)記以上。這種分組使研究者能夠評(píng)估模型在不同長(zhǎng)度文本上的表現(xiàn)差異。同時(shí),數(shù)據(jù)集涵蓋GICS定義的所有11個(gè)行業(yè)部門,包括通信服務(wù)、非必需消費(fèi)品、必需消費(fèi)品、能源、金融、醫(yī)療保健、工業(yè)、信息技術(shù)、材料、房地產(chǎn)和公用事業(yè),確保評(píng)估的全面性和代表性。
三、M?FinMeeting的三大核心任務(wù)
M?FinMeeting設(shè)計(jì)了三個(gè)核心任務(wù),這些任務(wù)都直接對(duì)應(yīng)金融專業(yè)人士的日常工作需求:摘要生成、問答對(duì)提取和問題回答。
### 摘要生成任務(wù)
想象一下,一場(chǎng)持續(xù)兩小時(shí)的投資策略會(huì)議結(jié)束后,你需要快速理解主要內(nèi)容并向團(tuán)隊(duì)匯報(bào)。這時(shí),一個(gè)能夠自動(dòng)生成會(huì)議摘要的工具將非常有價(jià)值。
摘要生成任務(wù)旨在評(píng)估大型語(yǔ)言模型有效壓縮冗長(zhǎng)演講內(nèi)容同時(shí)保留主要觀點(diǎn)的能力。典型的轉(zhuǎn)錄文本可以根據(jù)討論主題劃分為多個(gè)部分,每個(gè)部分都有自己的摘要,這些部分摘要按順序連接起來(lái)形成整個(gè)文檔的摘要。
在這個(gè)任務(wù)中,大型語(yǔ)言模型需要隱式識(shí)別文檔的不同部分,然后從每個(gè)部分提取關(guān)鍵點(diǎn)。根據(jù)統(tǒng)計(jì),平均而言,一個(gè)英語(yǔ)會(huì)議包含9.20個(gè)部分摘要,總計(jì)927個(gè)標(biāo)記。在標(biāo)記級(jí)別上,原文與摘要的壓縮比為10.88,在句子級(jí)別上為10.49。
### 問答對(duì)提取任務(wù)
在金融會(huì)議中,問答環(huán)節(jié)往往包含最有價(jià)值的信息。投資者可能會(huì)詢問公司的戰(zhàn)略方向、財(cái)務(wù)狀況或市場(chǎng)預(yù)期,而管理層的回答提供了深入了解公司運(yùn)營(yíng)和前景的窗口。
問答對(duì)提取任務(wù)涉及從轉(zhuǎn)錄的金融會(huì)議中識(shí)別和提取相關(guān)的問答對(duì)。這對(duì)于分析討論內(nèi)容和使關(guān)鍵見解易于獲取至關(guān)重要。要成功執(zhí)行這項(xiàng)任務(wù),大型語(yǔ)言模型必須識(shí)別會(huì)議中提出的各類問題,并準(zhǔn)確定位其對(duì)應(yīng)的答案。
例如,像"我們剛才在討論什么?"這樣缺乏實(shí)質(zhì)性信息的問題應(yīng)該被忽略。此外,參與者可能一次提出多個(gè)問題,而回答可能按順序逐一解決這些問題。這種復(fù)雜性要求大型語(yǔ)言模型能夠理解對(duì)話的結(jié)構(gòu),正確地將每個(gè)問題與其答案配對(duì)。
根據(jù)統(tǒng)計(jì),英語(yǔ)會(huì)議平均包含17.23個(gè)問答對(duì),每個(gè)問題平均長(zhǎng)度為17.62個(gè)標(biāo)記,每個(gè)答案平均長(zhǎng)度為110.19個(gè)標(biāo)記。
### 問題回答任務(wù)
問題回答任務(wù)評(píng)估大型語(yǔ)言模型定位知識(shí)的能力,這對(duì)于有效的長(zhǎng)上下文處理至關(guān)重要。為簡(jiǎn)化起見,研究團(tuán)隊(duì)使用上述提取的問答對(duì)作為這項(xiàng)任務(wù)的基礎(chǔ)。
正如前面提到的,轉(zhuǎn)錄的演講文本可以劃分為多個(gè)部分,問答任務(wù)測(cè)試大型語(yǔ)言模型在指定部分內(nèi)查找證據(jù)的能力,而其他包含相似但不相關(guān)內(nèi)容的部分則作為干擾。這種設(shè)置確保了對(duì)模型信息檢索技能的集中評(píng)估。
四、實(shí)驗(yàn)評(píng)估:七種大型語(yǔ)言模型的表現(xiàn)
研究團(tuán)隊(duì)使用M?FinMeeting評(píng)估了七種具有代表性的大型語(yǔ)言模型,包括兩種OpenAI的GPT模型和五種開源大型語(yǔ)言模型:
1. GPT-4o-2024-08-06-128K 2. GPT-3.5.turbo-0125-16K 3. GLM4-9B-Chat-1000K 4. Llama3.1-8b-Instruct-128K 5. Qwen2-7B-chat-128K 6. Qwen2-72B-Instruct-128K 7. Qwen2.5-72B-Instruct-128K
所有模型都支持M?FinMeeting中的語(yǔ)言。實(shí)驗(yàn)采用零樣本設(shè)置,即不使用任何訓(xùn)練樣本,直接測(cè)試模型的能力。
對(duì)于摘要生成任務(wù),研究團(tuán)隊(duì)要求大型語(yǔ)言模型隱式識(shí)別文檔部分并生成單獨(dú)的摘要,然后將這些摘要組合成最終的文檔摘要。對(duì)于問答對(duì)提取任務(wù),首先提示大型語(yǔ)言模型提取所有問題,然后按順序?yàn)槊總€(gè)問題提供答案。對(duì)于問題回答任務(wù),研究團(tuán)隊(duì)將相關(guān)問題組合到一個(gè)提示中,允許大型語(yǔ)言模型生成包含所有答案的綜合響應(yīng)。
研究團(tuán)隊(duì)使用多種指標(biāo)評(píng)估模型性能,包括精確度、召回率和F1分?jǐn)?shù)。同時(shí),他們使用GPT-4作為評(píng)判(GPT-4-Judge)來(lái)評(píng)估文檔級(jí)摘要和生成的問答對(duì),基于五個(gè)標(biāo)準(zhǔn):覆蓋率、冗余度、可讀性、準(zhǔn)確性和一致性,分?jǐn)?shù)范圍從0到100。為了驗(yàn)證評(píng)估的公正性,研究團(tuán)隊(duì)還使用Qwen-plus作為替代評(píng)判模型,并進(jìn)行了人工評(píng)估。
實(shí)驗(yàn)結(jié)果顯示,七種大型語(yǔ)言模型可分為三組:
第一組包括Qwen2.5-72B-Instruct、Qwen2-72B-Instruct和GPT-4o,它們的整體GPT-4-Judge分?jǐn)?shù)接近或超過70.0。其中,Qwen2.5-72B-Instruct表現(xiàn)最佳,其次是GPT-4o和Qwen2-72B-Instruct,它們的表現(xiàn)相當(dāng)。
第二組包括Qwen2-7B-Instruct和GLM4-9B-Chat,它們的分?jǐn)?shù)約為60.0。
第三組包括GPT-3.5-turbo和LLaMA3.1-8B-Instruct,其中LLaMA3.1-8B-Instruct優(yōu)于GPT-3.5-turbo。
在摘要生成任務(wù)中,所有模型的部分級(jí)別摘要的精確度、召回率和F1分?jǐn)?shù)都低于30%,表明生成的摘要與參考摘要之間的一致性較低。這些低分?jǐn)?shù)表明大型語(yǔ)言模型在語(yǔ)義準(zhǔn)確性和文檔分段方面都存在困難。
在問答對(duì)提取任務(wù)中,精確度、召回率和F1分?jǐn)?shù)同樣較低,表明生成的問題與參考問題之間的一致性較低。例如,即使是表現(xiàn)最好的Qwen2.5-72B-Instruct,其召回率也只有45.65%,這意味著它錯(cuò)過了一半以上的參考問題。這突顯了提取相關(guān)問答對(duì)的任務(wù)還有很大的改進(jìn)空間。
在問題回答任務(wù)中,所有大型語(yǔ)言模型的表現(xiàn)——由精確度、召回率、F1和GPT-4-Judge分?jǐn)?shù)衡量——明顯優(yōu)于問答對(duì)提取任務(wù)。這種差異并不令人意外,因?yàn)樵趩栴}回答任務(wù)中,問題是在提示中明確提供的。高F1分?jǐn)?shù)(超過90%)表明大多數(shù)大型語(yǔ)言模型能夠很好地遵循指令并正確重復(fù)問題。
研究團(tuán)隊(duì)還分析了不同語(yǔ)言、不同行業(yè)部門和不同輸入長(zhǎng)度對(duì)模型性能的影響。他們發(fā)現(xiàn),大多數(shù)模型在日語(yǔ)中表現(xiàn)最佳,但在中文或英語(yǔ)中沒有明顯優(yōu)勢(shì)。在行業(yè)部門方面,通信服務(wù)、非必需消費(fèi)品和信息技術(shù)在摘要生成和問題回答任務(wù)中通常獲得較高的GPT-4-Judge分?jǐn)?shù),但問答對(duì)提取任務(wù)的表現(xiàn)趨勢(shì)更為復(fù)雜,各部門之間的差異更大。對(duì)于輸入長(zhǎng)度,一個(gè)關(guān)鍵觀察是GPT-3.5-turbo的性能在輸入超過15K標(biāo)記時(shí)急劇下降,這是由于它的16K標(biāo)記上下文限制。相比之下,Qwen2.5-72B-Instruct和GPT-4o在三個(gè)任務(wù)中展示了穩(wěn)定且出色的性能,特別是在處理超過15K標(biāo)記的較長(zhǎng)上下文時(shí)表現(xiàn)卓越。
研究團(tuán)隊(duì)還探索了基于檢索增強(qiáng)生成(RAG)的問題回答方法,其中大型語(yǔ)言模型基于檢索的文檔塊單獨(dú)回答問題。實(shí)驗(yàn)結(jié)果表明,對(duì)于超過15K標(biāo)記的文檔,在單個(gè)響應(yīng)中回答所有問題(基線1)優(yōu)于所有其他一次回答一個(gè)問題的變體。此外,對(duì)于在文檔長(zhǎng)度超過10K標(biāo)記時(shí)一次回答一個(gè)問題的變體,研究團(tuán)隊(duì)發(fā)現(xiàn)較大的上下文會(huì)導(dǎo)致更好的性能,具體為:基線2 > RAG(前5) > RAG(前3) > RAG(前1)。值得注意的是,RAG(前5)僅在文檔短于10K標(biāo)記時(shí)優(yōu)于非RAG變體。
五、研究的意義與影響
M?FinMeeting數(shù)據(jù)集的開發(fā)填補(bǔ)了金融領(lǐng)域人工智能評(píng)估基準(zhǔn)的重要空白。與現(xiàn)有的基準(zhǔn)相比,M?FinMeeting更接近真實(shí)世界的金融場(chǎng)景,能夠更全面地評(píng)估大型語(yǔ)言模型在理解金融會(huì)議方面的能力。
這項(xiàng)研究的意義不僅限于學(xué)術(shù)層面。在實(shí)際應(yīng)用中,一個(gè)能夠有效理解金融會(huì)議的人工智能助手將極大地提高金融專業(yè)人士的工作效率。想象一下,投資分析師可以使用這樣的助手自動(dòng)總結(jié)冗長(zhǎng)的季度財(cái)報(bào)電話會(huì)議,提取關(guān)鍵問答,并回答特定問題,從而節(jié)省大量時(shí)間并減少信息遺漏的風(fēng)險(xiǎn)。
此外,M?FinMeeting的多語(yǔ)言特性使其能夠支持全球金融市場(chǎng)的應(yīng)用。隨著全球金融一體化的深入,跨語(yǔ)言理解變得越來(lái)越重要。一個(gè)能夠同時(shí)處理英語(yǔ)、中文和日語(yǔ)金融會(huì)議的模型將為國(guó)際金融機(jī)構(gòu)提供巨大價(jià)值。
然而,實(shí)驗(yàn)結(jié)果也揭示了當(dāng)前大型語(yǔ)言模型在處理金融會(huì)議理解任務(wù)時(shí)的局限性。即使是最先進(jìn)的長(zhǎng)上下文模型,如Qwen2.5-72B-Instruct,在某些任務(wù)上的表現(xiàn)仍有顯著提升空間。這表明金融會(huì)議理解仍然是一個(gè)具有挑戰(zhàn)性的問題,需要進(jìn)一步的研究和創(chuàng)新。
未來(lái)的研究可能會(huì)探索結(jié)構(gòu)化建模方法,如朱杰等人在2019年提出的方法,以改進(jìn)長(zhǎng)輸入上下文的處理。此外,針對(duì)金融領(lǐng)域的特定預(yù)訓(xùn)練和微調(diào)策略可能會(huì)進(jìn)一步提高模型在M?FinMeeting任務(wù)上的表現(xiàn)。
六、結(jié)論與未來(lái)展望
M?FinMeeting作為一個(gè)多語(yǔ)言、多行業(yè)、多任務(wù)的金融會(huì)議理解評(píng)估數(shù)據(jù)集,為評(píng)估大型語(yǔ)言模型在金融領(lǐng)域的能力提供了寶貴的資源。它不僅彌補(bǔ)了現(xiàn)有金融評(píng)估基準(zhǔn)的不足,還為未來(lái)的研究指明了方向。
實(shí)驗(yàn)結(jié)果表明,雖然當(dāng)前最先進(jìn)的大型語(yǔ)言模型在處理金融會(huì)議理解任務(wù)時(shí)取得了一定成功,但仍然面臨挑戰(zhàn),特別是在摘要生成和問答對(duì)提取任務(wù)上。這些挑戰(zhàn)為未來(lái)的研究提供了機(jī)會(huì),推動(dòng)金融領(lǐng)域人工智能技術(shù)的進(jìn)一步發(fā)展。
隨著大型語(yǔ)言模型技術(shù)的不斷進(jìn)步,我們可以期待未來(lái)會(huì)出現(xiàn)更強(qiáng)大的金融會(huì)議理解系統(tǒng),這些系統(tǒng)將能夠更準(zhǔn)確地總結(jié)會(huì)議內(nèi)容,提取關(guān)鍵問答,并回答特定問題。這將為金融專業(yè)人士提供強(qiáng)大的輔助工具,提高工作效率,并可能改變金融信息處理的方式。
M?FinMeeting數(shù)據(jù)集及其項(xiàng)目已在GitHub上公開發(fā)布(https://github.com/aliyun/qwen-dianjin),有興趣的讀者可以訪問該鏈接獲取更多信息和資源。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。