av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

深度解讀M?FinMeeting：探索多語(yǔ)言、多行業(yè)、多任務(wù)的金融會(huì)議理解評(píng)估數(shù)據(jù)集

金融科技自然語(yǔ)言處理大型語(yǔ)言模型

深度解讀M?FinMeeting：探索多語(yǔ)言、多行業(yè)、多任務(wù)的金融會(huì)議理解評(píng)估數(shù)據(jù)集

作者：科技行者

2025-06-06 14:14

分享至：

M?FinMeeting是由蘇州大學(xué)和阿里云研究團(tuán)隊(duì)開發(fā)的創(chuàng)新性金融會(huì)議理解評(píng)估數(shù)據(jù)集，支持英語(yǔ)、中文和日語(yǔ)三種語(yǔ)言，涵蓋全球行業(yè)分類標(biāo)準(zhǔn)(GICS)定義的11個(gè)行業(yè)部門，包含摘要生成、問答對(duì)提取和問題回答三項(xiàng)任務(wù)。研究團(tuán)隊(duì)用七種代表性大型語(yǔ)言模型進(jìn)行了實(shí)驗(yàn)評(píng)估，發(fā)現(xiàn)即使是最先進(jìn)的長(zhǎng)上下文模型在處理金融會(huì)議理解任務(wù)時(shí)仍有顯著提升空間。這一數(shù)據(jù)集填補(bǔ)了金融領(lǐng)域人工智能評(píng)估基準(zhǔn)的重要空白，為未來(lái)研究提供了寶貴資源。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 14:14 ? 科技行者

當(dāng)我們談?wù)撊斯ぶ悄茉诮鹑陬I(lǐng)域的應(yīng)用時(shí)，大多數(shù)人可能會(huì)想到自動(dòng)投資、風(fēng)險(xiǎn)評(píng)估或欺詐檢測(cè)系統(tǒng)。然而，在金融世界的幕后，還有一個(gè)至關(guān)重要卻容易被忽視的場(chǎng)景：金融會(huì)議。這些會(huì)議通常持續(xù)一到兩小時(shí)，包含海量的信息交流，是金融決策和戰(zhàn)略制定的關(guān)鍵環(huán)節(jié)。如何利用人工智能技術(shù)來(lái)理解和處理這些冗長(zhǎng)的會(huì)議內(nèi)容，一直是一個(gè)亟待解決的挑戰(zhàn)。

2025年6月，由蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的朱杰、李軍輝，阿里云錢進(jìn)團(tuán)隊(duì)的溫亞龍、李賢東、郭力帆、陳鋒等研究人員聯(lián)合發(fā)表了一篇?jiǎng)?chuàng)新性論文《M?FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset》。這項(xiàng)研究首次推出了一個(gè)專為金融會(huì)議理解而設(shè)計(jì)的多語(yǔ)言、多行業(yè)、多任務(wù)評(píng)估數(shù)據(jù)集，為大型語(yǔ)言模型在金融會(huì)議場(chǎng)景下的應(yīng)用提供了重要的評(píng)估基準(zhǔn)。

讓我們一起深入了解這個(gè)名為M?FinMeeting的數(shù)據(jù)集，看看它如何解決金融會(huì)議理解中的核心挑戰(zhàn)，以及它對(duì)金融科技發(fā)展的深遠(yuǎn)影響。

一、為什么我們需要一個(gè)金融會(huì)議理解數(shù)據(jù)集？

想象一下，你是一位金融分析師，每周需要參加十幾場(chǎng)長(zhǎng)達(dá)兩小時(shí)的投資會(huì)議、季度財(cái)報(bào)電話會(huì)或行業(yè)討論會(huì)。會(huì)后，你需要整理會(huì)議要點(diǎn)、回答同事的問題，以及提取關(guān)鍵的問答內(nèi)容用于后續(xù)分析。這些工作不僅耗時(shí)，還容易出現(xiàn)遺漏或誤解。如果有一個(gè)人工智能助手能幫你自動(dòng)總結(jié)會(huì)議內(nèi)容，提取重要問答，并回答你的疑問，那將大大提高工作效率。

然而，現(xiàn)有的金融領(lǐng)域人工智能評(píng)估基準(zhǔn)大多基于新聞文章、收益報(bào)告或公告，很少涉及真實(shí)的金融會(huì)議場(chǎng)景。比如，英文領(lǐng)域有FinQA、ConvFinQA、FLUE等數(shù)據(jù)集，中文領(lǐng)域有CFLUE和CCKS系列共享任務(wù)，但這些數(shù)據(jù)集大多來(lái)源于金融新聞和收益報(bào)告，缺乏真實(shí)金融會(huì)議的內(nèi)容，而且通常只支持單一語(yǔ)言（英文或中文）。

金融會(huì)議與新聞報(bào)道或財(cái)報(bào)有著本質(zhì)區(qū)別。會(huì)議是一個(gè)動(dòng)態(tài)交互的過程，參與者之間的討論、提問和回答構(gòu)成了復(fù)雜的信息網(wǎng)絡(luò)。會(huì)議內(nèi)容往往冗長(zhǎng)、非結(jié)構(gòu)化，且充滿了行業(yè)術(shù)語(yǔ)和專業(yè)知識(shí)。因此，理解和處理金融會(huì)議內(nèi)容需要特殊的評(píng)估基準(zhǔn)。

正是基于這一需求，研究團(tuán)隊(duì)開發(fā)了M?FinMeeting數(shù)據(jù)集，它具有三個(gè)關(guān)鍵特點(diǎn)：

首先，M?FinMeeting支持多語(yǔ)言，包括英語(yǔ)、中文和日語(yǔ)，這使得模型能夠在不同語(yǔ)言環(huán)境下理解金融討論。

其次，它涵蓋全球行業(yè)分類標(biāo)準(zhǔn)(GICS)定義的所有11個(gè)行業(yè)部門，確保評(píng)估基準(zhǔn)覆蓋廣泛的金融活動(dòng)范圍。

最后，M?FinMeeting包含三個(gè)任務(wù)：摘要生成、問答對(duì)提取和問題回答，這些任務(wù)貼近金融專業(yè)人士的實(shí)際需求，提供了更全面的理解能力評(píng)估。

二、M?FinMeeting數(shù)據(jù)集的構(gòu)建與特點(diǎn)

M?FinMeeting數(shù)據(jù)集不是憑空想象出來(lái)的，而是基于數(shù)百個(gè)真實(shí)金融會(huì)議精心構(gòu)建的。研究團(tuán)隊(duì)首先收集了大量金融會(huì)議的音頻文件，包括公開路演、券商策略會(huì)議、行業(yè)交流會(huì)和財(cái)報(bào)說(shuō)明會(huì)等各類會(huì)議。收集過程遵循四個(gè)標(biāo)準(zhǔn)：時(shí)效性（大多數(shù)會(huì)議應(yīng)來(lái)自近年）、長(zhǎng)度（優(yōu)先選擇較長(zhǎng)的音頻文件）、分類性（音頻文件必須符合GICS中定義的類別）以及權(quán)威性（所有音頻文件均來(lái)自研究團(tuán)隊(duì)的金融公司合作伙伴，受版權(quán)保護(hù)）。

收集到的音頻文件使用Whisper自動(dòng)語(yǔ)音識(shí)別工具轉(zhuǎn)錄為文本，然后經(jīng)過人工校正。研究團(tuán)隊(duì)采取嚴(yán)格措施確保轉(zhuǎn)錄文本中不包含敏感或個(gè)人身份信息。最終，M?FinMeeting包含100個(gè)英語(yǔ)會(huì)議、400個(gè)中文會(huì)議和100個(gè)日語(yǔ)會(huì)議，每個(gè)會(huì)議平均持續(xù)一小時(shí)左右。

這個(gè)數(shù)據(jù)集的規(guī)模令人印象深刻。英文會(huì)議平均包含10,086個(gè)標(biāo)記（token），中文會(huì)議平均11,740個(gè)標(biāo)記，日語(yǔ)會(huì)議平均13,284個(gè)標(biāo)記?？紤]到金融會(huì)議通常持續(xù)一到兩小時(shí)，這些長(zhǎng)文本數(shù)據(jù)為評(píng)估大型語(yǔ)言模型處理長(zhǎng)上下文的能力提供了理想的測(cè)試場(chǎng)景。

M?FinMeeting數(shù)據(jù)集還按照文本長(zhǎng)度分為五組：0-5K標(biāo)記、5-10K標(biāo)記、10-15K標(biāo)記、15-20K標(biāo)記和20K標(biāo)記以上。這種分組使研究者能夠評(píng)估模型在不同長(zhǎng)度文本上的表現(xiàn)差異。同時(shí)，數(shù)據(jù)集涵蓋GICS定義的所有11個(gè)行業(yè)部門，包括通信服務(wù)、非必需消費(fèi)品、必需消費(fèi)品、能源、金融、醫(yī)療保健、工業(yè)、信息技術(shù)、材料、房地產(chǎn)和公用事業(yè)，確保評(píng)估的全面性和代表性。

三、M?FinMeeting的三大核心任務(wù)

M?FinMeeting設(shè)計(jì)了三個(gè)核心任務(wù)，這些任務(wù)都直接對(duì)應(yīng)金融專業(yè)人士的日常工作需求：摘要生成、問答對(duì)提取和問題回答。

### 摘要生成任務(wù)

想象一下，一場(chǎng)持續(xù)兩小時(shí)的投資策略會(huì)議結(jié)束后，你需要快速理解主要內(nèi)容并向團(tuán)隊(duì)匯報(bào)。這時(shí)，一個(gè)能夠自動(dòng)生成會(huì)議摘要的工具將非常有價(jià)值。

摘要生成任務(wù)旨在評(píng)估大型語(yǔ)言模型有效壓縮冗長(zhǎng)演講內(nèi)容同時(shí)保留主要觀點(diǎn)的能力。典型的轉(zhuǎn)錄文本可以根據(jù)討論主題劃分為多個(gè)部分，每個(gè)部分都有自己的摘要，這些部分摘要按順序連接起來(lái)形成整個(gè)文檔的摘要。

在這個(gè)任務(wù)中，大型語(yǔ)言模型需要隱式識(shí)別文檔的不同部分，然后從每個(gè)部分提取關(guān)鍵點(diǎn)。根據(jù)統(tǒng)計(jì)，平均而言，一個(gè)英語(yǔ)會(huì)議包含9.20個(gè)部分摘要，總計(jì)927個(gè)標(biāo)記。在標(biāo)記級(jí)別上，原文與摘要的壓縮比為10.88，在句子級(jí)別上為10.49。

### 問答對(duì)提取任務(wù)

在金融會(huì)議中，問答環(huán)節(jié)往往包含最有價(jià)值的信息。投資者可能會(huì)詢問公司的戰(zhàn)略方向、財(cái)務(wù)狀況或市場(chǎng)預(yù)期，而管理層的回答提供了深入了解公司運(yùn)營(yíng)和前景的窗口。

問答對(duì)提取任務(wù)涉及從轉(zhuǎn)錄的金融會(huì)議中識(shí)別和提取相關(guān)的問答對(duì)。這對(duì)于分析討論內(nèi)容和使關(guān)鍵見解易于獲取至關(guān)重要。要成功執(zhí)行這項(xiàng)任務(wù)，大型語(yǔ)言模型必須識(shí)別會(huì)議中提出的各類問題，并準(zhǔn)確定位其對(duì)應(yīng)的答案。

例如，像"我們剛才在討論什么？"這樣缺乏實(shí)質(zhì)性信息的問題應(yīng)該被忽略。此外，參與者可能一次提出多個(gè)問題，而回答可能按順序逐一解決這些問題。這種復(fù)雜性要求大型語(yǔ)言模型能夠理解對(duì)話的結(jié)構(gòu)，正確地將每個(gè)問題與其答案配對(duì)。

根據(jù)統(tǒng)計(jì)，英語(yǔ)會(huì)議平均包含17.23個(gè)問答對(duì)，每個(gè)問題平均長(zhǎng)度為17.62個(gè)標(biāo)記，每個(gè)答案平均長(zhǎng)度為110.19個(gè)標(biāo)記。

### 問題回答任務(wù)

問題回答任務(wù)評(píng)估大型語(yǔ)言模型定位知識(shí)的能力，這對(duì)于有效的長(zhǎng)上下文處理至關(guān)重要。為簡(jiǎn)化起見，研究團(tuán)隊(duì)使用上述提取的問答對(duì)作為這項(xiàng)任務(wù)的基礎(chǔ)。

正如前面提到的，轉(zhuǎn)錄的演講文本可以劃分為多個(gè)部分，問答任務(wù)測(cè)試大型語(yǔ)言模型在指定部分內(nèi)查找證據(jù)的能力，而其他包含相似但不相關(guān)內(nèi)容的部分則作為干擾。這種設(shè)置確保了對(duì)模型信息檢索技能的集中評(píng)估。

四、實(shí)驗(yàn)評(píng)估：七種大型語(yǔ)言模型的表現(xiàn)

研究團(tuán)隊(duì)使用M?FinMeeting評(píng)估了七種具有代表性的大型語(yǔ)言模型，包括兩種OpenAI的GPT模型和五種開源大型語(yǔ)言模型：

1. GPT-4o-2024-08-06-128K 2. GPT-3.5.turbo-0125-16K 3. GLM4-9B-Chat-1000K 4. Llama3.1-8b-Instruct-128K 5. Qwen2-7B-chat-128K 6. Qwen2-72B-Instruct-128K 7. Qwen2.5-72B-Instruct-128K

所有模型都支持M?FinMeeting中的語(yǔ)言。實(shí)驗(yàn)采用零樣本設(shè)置，即不使用任何訓(xùn)練樣本，直接測(cè)試模型的能力。

對(duì)于摘要生成任務(wù)，研究團(tuán)隊(duì)要求大型語(yǔ)言模型隱式識(shí)別文檔部分并生成單獨(dú)的摘要，然后將這些摘要組合成最終的文檔摘要。對(duì)于問答對(duì)提取任務(wù)，首先提示大型語(yǔ)言模型提取所有問題，然后按順序?yàn)槊總€(gè)問題提供答案。對(duì)于問題回答任務(wù)，研究團(tuán)隊(duì)將相關(guān)問題組合到一個(gè)提示中，允許大型語(yǔ)言模型生成包含所有答案的綜合響應(yīng)。

研究團(tuán)隊(duì)使用多種指標(biāo)評(píng)估模型性能，包括精確度、召回率和F1分?jǐn)?shù)。同時(shí)，他們使用GPT-4作為評(píng)判（GPT-4-Judge）來(lái)評(píng)估文檔級(jí)摘要和生成的問答對(duì)，基于五個(gè)標(biāo)準(zhǔn)：覆蓋率、冗余度、可讀性、準(zhǔn)確性和一致性，分?jǐn)?shù)范圍從0到100。為了驗(yàn)證評(píng)估的公正性，研究團(tuán)隊(duì)還使用Qwen-plus作為替代評(píng)判模型，并進(jìn)行了人工評(píng)估。

實(shí)驗(yàn)結(jié)果顯示，七種大型語(yǔ)言模型可分為三組：

第一組包括Qwen2.5-72B-Instruct、Qwen2-72B-Instruct和GPT-4o，它們的整體GPT-4-Judge分?jǐn)?shù)接近或超過70.0。其中，Qwen2.5-72B-Instruct表現(xiàn)最佳，其次是GPT-4o和Qwen2-72B-Instruct，它們的表現(xiàn)相當(dāng)。

第二組包括Qwen2-7B-Instruct和GLM4-9B-Chat，它們的分?jǐn)?shù)約為60.0。

第三組包括GPT-3.5-turbo和LLaMA3.1-8B-Instruct，其中LLaMA3.1-8B-Instruct優(yōu)于GPT-3.5-turbo。

在摘要生成任務(wù)中，所有模型的部分級(jí)別摘要的精確度、召回率和F1分?jǐn)?shù)都低于30%，表明生成的摘要與參考摘要之間的一致性較低。這些低分?jǐn)?shù)表明大型語(yǔ)言模型在語(yǔ)義準(zhǔn)確性和文檔分段方面都存在困難。

在問答對(duì)提取任務(wù)中，精確度、召回率和F1分?jǐn)?shù)同樣較低，表明生成的問題與參考問題之間的一致性較低。例如，即使是表現(xiàn)最好的Qwen2.5-72B-Instruct，其召回率也只有45.65%，這意味著它錯(cuò)過了一半以上的參考問題。這突顯了提取相關(guān)問答對(duì)的任務(wù)還有很大的改進(jìn)空間。

在問題回答任務(wù)中，所有大型語(yǔ)言模型的表現(xiàn)——由精確度、召回率、F1和GPT-4-Judge分?jǐn)?shù)衡量——明顯優(yōu)于問答對(duì)提取任務(wù)。這種差異并不令人意外，因?yàn)樵趩栴}回答任務(wù)中，問題是在提示中明確提供的。高F1分?jǐn)?shù)（超過90%）表明大多數(shù)大型語(yǔ)言模型能夠很好地遵循指令并正確重復(fù)問題。

研究團(tuán)隊(duì)還分析了不同語(yǔ)言、不同行業(yè)部門和不同輸入長(zhǎng)度對(duì)模型性能的影響。他們發(fā)現(xiàn)，大多數(shù)模型在日語(yǔ)中表現(xiàn)最佳，但在中文或英語(yǔ)中沒有明顯優(yōu)勢(shì)。在行業(yè)部門方面，通信服務(wù)、非必需消費(fèi)品和信息技術(shù)在摘要生成和問題回答任務(wù)中通常獲得較高的GPT-4-Judge分?jǐn)?shù)，但問答對(duì)提取任務(wù)的表現(xiàn)趨勢(shì)更為復(fù)雜，各部門之間的差異更大。對(duì)于輸入長(zhǎng)度，一個(gè)關(guān)鍵觀察是GPT-3.5-turbo的性能在輸入超過15K標(biāo)記時(shí)急劇下降，這是由于它的16K標(biāo)記上下文限制。相比之下，Qwen2.5-72B-Instruct和GPT-4o在三個(gè)任務(wù)中展示了穩(wěn)定且出色的性能，特別是在處理超過15K標(biāo)記的較長(zhǎng)上下文時(shí)表現(xiàn)卓越。

研究團(tuán)隊(duì)還探索了基于檢索增強(qiáng)生成（RAG）的問題回答方法，其中大型語(yǔ)言模型基于檢索的文檔塊單獨(dú)回答問題。實(shí)驗(yàn)結(jié)果表明，對(duì)于超過15K標(biāo)記的文檔，在單個(gè)響應(yīng)中回答所有問題（基線1）優(yōu)于所有其他一次回答一個(gè)問題的變體。此外，對(duì)于在文檔長(zhǎng)度超過10K標(biāo)記時(shí)一次回答一個(gè)問題的變體，研究團(tuán)隊(duì)發(fā)現(xiàn)較大的上下文會(huì)導(dǎo)致更好的性能，具體為：基線2 > RAG（前5） > RAG（前3） > RAG（前1）。值得注意的是，RAG（前5）僅在文檔短于10K標(biāo)記時(shí)優(yōu)于非RAG變體。

五、研究的意義與影響

M?FinMeeting數(shù)據(jù)集的開發(fā)填補(bǔ)了金融領(lǐng)域人工智能評(píng)估基準(zhǔn)的重要空白。與現(xiàn)有的基準(zhǔn)相比，M?FinMeeting更接近真實(shí)世界的金融場(chǎng)景，能夠更全面地評(píng)估大型語(yǔ)言模型在理解金融會(huì)議方面的能力。

這項(xiàng)研究的意義不僅限于學(xué)術(shù)層面。在實(shí)際應(yīng)用中，一個(gè)能夠有效理解金融會(huì)議的人工智能助手將極大地提高金融專業(yè)人士的工作效率。想象一下，投資分析師可以使用這樣的助手自動(dòng)總結(jié)冗長(zhǎng)的季度財(cái)報(bào)電話會(huì)議，提取關(guān)鍵問答，并回答特定問題，從而節(jié)省大量時(shí)間并減少信息遺漏的風(fēng)險(xiǎn)。

此外，M?FinMeeting的多語(yǔ)言特性使其能夠支持全球金融市場(chǎng)的應(yīng)用。隨著全球金融一體化的深入，跨語(yǔ)言理解變得越來(lái)越重要。一個(gè)能夠同時(shí)處理英語(yǔ)、中文和日語(yǔ)金融會(huì)議的模型將為國(guó)際金融機(jī)構(gòu)提供巨大價(jià)值。

然而，實(shí)驗(yàn)結(jié)果也揭示了當(dāng)前大型語(yǔ)言模型在處理金融會(huì)議理解任務(wù)時(shí)的局限性。即使是最先進(jìn)的長(zhǎng)上下文模型，如Qwen2.5-72B-Instruct，在某些任務(wù)上的表現(xiàn)仍有顯著提升空間。這表明金融會(huì)議理解仍然是一個(gè)具有挑戰(zhàn)性的問題，需要進(jìn)一步的研究和創(chuàng)新。

未來(lái)的研究可能會(huì)探索結(jié)構(gòu)化建模方法，如朱杰等人在2019年提出的方法，以改進(jìn)長(zhǎng)輸入上下文的處理。此外，針對(duì)金融領(lǐng)域的特定預(yù)訓(xùn)練和微調(diào)策略可能會(huì)進(jìn)一步提高模型在M?FinMeeting任務(wù)上的表現(xiàn)。

六、結(jié)論與未來(lái)展望

M?FinMeeting作為一個(gè)多語(yǔ)言、多行業(yè)、多任務(wù)的金融會(huì)議理解評(píng)估數(shù)據(jù)集，為評(píng)估大型語(yǔ)言模型在金融領(lǐng)域的能力提供了寶貴的資源。它不僅彌補(bǔ)了現(xiàn)有金融評(píng)估基準(zhǔn)的不足，還為未來(lái)的研究指明了方向。

實(shí)驗(yàn)結(jié)果表明，雖然當(dāng)前最先進(jìn)的大型語(yǔ)言模型在處理金融會(huì)議理解任務(wù)時(shí)取得了一定成功，但仍然面臨挑戰(zhàn)，特別是在摘要生成和問答對(duì)提取任務(wù)上。這些挑戰(zhàn)為未來(lái)的研究提供了機(jī)會(huì)，推動(dòng)金融領(lǐng)域人工智能技術(shù)的進(jìn)一步發(fā)展。

隨著大型語(yǔ)言模型技術(shù)的不斷進(jìn)步，我們可以期待未來(lái)會(huì)出現(xiàn)更強(qiáng)大的金融會(huì)議理解系統(tǒng)，這些系統(tǒng)將能夠更準(zhǔn)確地總結(jié)會(huì)議內(nèi)容，提取關(guān)鍵問答，并回答特定問題。這將為金融專業(yè)人士提供強(qiáng)大的輔助工具，提高工作效率，并可能改變金融信息處理的方式。

M?FinMeeting數(shù)據(jù)集及其項(xiàng)目已在GitHub上公開發(fā)布（https://github.com/aliyun/qwen-dianjin），有興趣的讀者可以訪問該鏈接獲取更多信息和資源。

金融科技自然語(yǔ)言處理大型語(yǔ)言模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<big id="ndiy4"><acronym id="ndiy4"><wbr id="ndiy4"></wbr></acronym></big>