av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<tfoot id="t6cw1"></tfoot>

<ruby id="t6cw1"><button id="t6cw1"></button></ruby>

<sub id="t6cw1"></sub>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

時(shí)間洞察：北京大學(xué)和華為諾亞方舟實(shí)驗(yàn)室聯(lián)合打造真實(shí)場(chǎng)景下大語言模型時(shí)間推理的多層級(jí)基準(zhǔn)

大語言模型時(shí)間推理基準(zhǔn)測(cè)試

時(shí)間洞察：北京大學(xué)和華為諾亞方舟實(shí)驗(yàn)室聯(lián)合打造真實(shí)場(chǎng)景下大語言模型時(shí)間推理的多層級(jí)基準(zhǔn)

作者：科技行者

2025-05-28 20:29

分享至：

北京大學(xué)與華為諾亞方舟實(shí)驗(yàn)室研究團(tuán)隊(duì)共同開發(fā)了TIME基準(zhǔn)，這是首個(gè)專為評(píng)估大語言模型在真實(shí)世界場(chǎng)景中的時(shí)間推理能力而設(shè)計(jì)的多層級(jí)基準(zhǔn)。該研究提出了三個(gè)層級(jí)的時(shí)間推理框架，包含11個(gè)細(xì)粒度任務(wù)，并構(gòu)建了涵蓋38,522個(gè)問答對(duì)的數(shù)據(jù)集，針對(duì)知識(shí)密集型信息、快速變化的事件動(dòng)態(tài)和社交互動(dòng)中的復(fù)雜時(shí)間依賴性三大現(xiàn)實(shí)挑戰(zhàn)。實(shí)驗(yàn)結(jié)果表明，即使是先進(jìn)模型在構(gòu)建時(shí)間線和理解復(fù)雜時(shí)間關(guān)系方面仍面臨顯著挑戰(zhàn)，而測(cè)試時(shí)擴(kuò)展技術(shù)可明顯提升時(shí)間邏輯推理能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 20:29 ? 科技行者

2025年5月，來自北京大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇關(guān)于大語言模型時(shí)間推理能力的重要研究論文。這項(xiàng)由北京大學(xué)多媒體信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室的韋少航、李威、宋飛帆、羅文和華為諾亞方舟實(shí)驗(yàn)室的莊天義、譚浩晨、郭志江，以及北京大學(xué)的王厚峰教授共同完成的研究，為評(píng)估大語言模型在現(xiàn)實(shí)世界場(chǎng)景中的時(shí)間推理能力提供了全新的評(píng)估框架。論文題為《TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios》(TIME：真實(shí)場(chǎng)景下大語言模型時(shí)間推理的多層級(jí)基準(zhǔn))，代碼和數(shù)據(jù)集已分別在GitHub和HuggingFace上開源。

為什么時(shí)間推理對(duì)大語言模型如此重要？

想象一下，你正在與朋友聊天，談?wù)撋现馨l(fā)生的事情，然后突然提到"那時(shí)候"發(fā)生的某件事。你的朋友能夠立即理解"那時(shí)候"指的是什么時(shí)間點(diǎn)，因?yàn)槿祟愄焐邆鋾r(shí)間推理能力。然而，對(duì)于人工智能來說，理解時(shí)間概念和事件之間的時(shí)間關(guān)系卻是一項(xiàng)巨大的挑戰(zhàn)。

時(shí)間是現(xiàn)實(shí)世界中串聯(lián)復(fù)雜事件的關(guān)鍵線索。大語言模型（LLMs）要想真正理解世界，就必須具備像人類一樣理解時(shí)間的能力。雖然現(xiàn)在的大語言模型在數(shù)學(xué)問題解決和代碼生成等方面表現(xiàn)出色，但在處理現(xiàn)實(shí)世界中的時(shí)間理解方面仍面臨諸多困難。

研究團(tuán)隊(duì)指出，現(xiàn)實(shí)世界中的時(shí)間推理存在三大挑戰(zhàn)： 1. 知識(shí)密集型信息中蘊(yùn)含的大量時(shí)間數(shù)據(jù) 2. 快速變化的事件動(dòng)態(tài) 3. 社交互動(dòng)中復(fù)雜的時(shí)間依賴關(guān)系

現(xiàn)有的評(píng)估基準(zhǔn)如TimeBench和TRAM主要關(guān)注簡(jiǎn)化場(chǎng)景，如基本的時(shí)間常識(shí)和短文本中的關(guān)系，沒有充分探索現(xiàn)實(shí)世界中復(fù)雜的時(shí)間推理能力。此外，時(shí)間推理是一個(gè)分層的能力框架，需要從基礎(chǔ)能力到復(fù)雜推理的全面評(píng)估。

TIME：一個(gè)多層級(jí)的時(shí)間推理基準(zhǔn)

針對(duì)這些挑戰(zhàn)，研究團(tuán)隊(duì)提出了TIME，一個(gè)包含38,522個(gè)問答對(duì)的多層級(jí)基準(zhǔn)，涵蓋了11個(gè)細(xì)粒度子任務(wù)，分布在3個(gè)不同級(jí)別。這個(gè)基準(zhǔn)由三個(gè)子數(shù)據(jù)集組成，分別對(duì)應(yīng)不同的現(xiàn)實(shí)世界挑戰(zhàn)：

1. **TIME-WIKI**：評(píng)估知識(shí)密集型場(chǎng)景中的時(shí)間推理能力 2. **TIME-NEWS**：評(píng)估快速變化新聞環(huán)境中的時(shí)間理解能力 3. **TIME-DIAL**：評(píng)估具有復(fù)雜時(shí)間依賴關(guān)系的長(zhǎng)對(duì)話交互中的時(shí)間推理能力

此外，研究團(tuán)隊(duì)還創(chuàng)建了TIME-LITE，一個(gè)包含943個(gè)人工精選樣本的高質(zhì)量子集，用于標(biāo)準(zhǔn)化評(píng)估和未來研究。

多層級(jí)任務(wù)設(shè)計(jì)：像人類一樣理解時(shí)間

TIME基準(zhǔn)的設(shè)計(jì)模擬了人類理解復(fù)雜動(dòng)態(tài)世界信息時(shí)使用時(shí)間概念的過程，分為三個(gè)漸進(jìn)且相互關(guān)聯(lián)的層級(jí)：

**第一層級(jí)：基本時(shí)間理解與檢索**

這一層級(jí)要求模型建立基礎(chǔ)時(shí)間信息處理能力，包括五個(gè)子任務(wù)： - **提取(Extract)**：從文本中直接提取時(shí)間表達(dá)式（時(shí)間點(diǎn)、時(shí)間段、相對(duì)時(shí)間） - **定位(Localization)**：通過事件的時(shí)間定位評(píng)估事件-時(shí)間映射準(zhǔn)確性 - **計(jì)算(Computation)**：測(cè)試明確時(shí)間標(biāo)記之間的持續(xù)時(shí)間計(jì)算 - **持續(xù)時(shí)間比較(DurationCompare)**：測(cè)量事件之間間隔的比較能力 - **順序比較(OrderCompare)**：檢驗(yàn)對(duì)時(shí)間順序的理解

簡(jiǎn)單來說，這就像是教會(huì)AI認(rèn)識(shí)時(shí)鐘、讀懂日歷，并能回答"這件事發(fā)生在什么時(shí)候？"、"這兩個(gè)事件哪個(gè)先發(fā)生？"、"這兩件事之間隔了多長(zhǎng)時(shí)間？"等基本問題。

**第二層級(jí)：時(shí)間表達(dá)推理**

這一層級(jí)要求模型通過時(shí)間表達(dá)推理來定位事件細(xì)節(jié)，包括三個(gè)子任務(wù)： - **顯式推理(Explicit Reasoning)**：基于未提及時(shí)間點(diǎn)/范圍的推理（例如："毛羅·莫雷利在1967-1973年間的職業(yè)是什么？"） - **順序推理(Order Reasoning)**：通過序數(shù)表達(dá)進(jìn)行時(shí)間定位（例如："毛羅·莫雷利的第二份工作"） - **相對(duì)推理(Relative Reasoning)**：涉及相對(duì)時(shí)間引用的上下文解釋（例如："毛羅·莫雷利在最接近事件A的時(shí)候在哪工作？"）

這就像是教會(huì)AI理解"昨天"、"上周"、"三年前"這類相對(duì)時(shí)間表達(dá)，或者理解"第一次世界大戰(zhàn)之后"這類需要參考?xì)v史知識(shí)的時(shí)間指代。

**第三層級(jí)：復(fù)雜時(shí)間關(guān)系推理**

這一層級(jí)要求模型理解和推理多個(gè)事件之間的復(fù)雜時(shí)間關(guān)系，包括三個(gè)子任務(wù)： - **共時(shí)性(Co-temporality)**：識(shí)別并發(fā)事件之間重疊的時(shí)間關(guān)系（例如："埃隆·馬斯克在擔(dān)任OpenAI職位的同時(shí)在哪里工作？"） - **時(shí)間線(Timeline)**：推斷多個(gè)事件的正確時(shí)間順序（例如，按時(shí)間順序排列8個(gè)政治事件） - **反事實(shí)推理(Counterfactual Reasoning)**：在與原始上下文矛盾的時(shí)間前提下進(jìn)行時(shí)間推理（例如："如果事件X晚了3年發(fā)生，會(huì)如何影響事件Y？"）

這類似于教會(huì)AI構(gòu)建完整的事件時(shí)間線，理解同時(shí)發(fā)生的事件之間的關(guān)系，以及分析"如果歷史上某件事推遲或提前發(fā)生，會(huì)產(chǎn)生什么不同結(jié)果"這類假設(shè)性問題。

數(shù)據(jù)集構(gòu)建：從真實(shí)世界到時(shí)間推理基準(zhǔn)

研究團(tuán)隊(duì)精心設(shè)計(jì)了三個(gè)子數(shù)據(jù)集的構(gòu)建流程，確保它們能夠真實(shí)反映現(xiàn)實(shí)世界中的時(shí)間推理挑戰(zhàn)：

**TIME-WIKI**：從WikiData中提取時(shí)間知識(shí)圖譜，構(gòu)建包含多跳時(shí)間知識(shí)的數(shù)據(jù)集。研究團(tuán)隊(duì)系統(tǒng)選擇了6個(gè)類別、34個(gè)WikiData屬性進(jìn)行事實(shí)提取，涵蓋教育就業(yè)、家庭關(guān)系、地理位置、命名關(guān)系、重大事件和角色身份等多個(gè)領(lǐng)域。

**TIME-NEWS**：利用在線新聞文章及其時(shí)間線，捕捉快速變化的事件動(dòng)態(tài)。每個(gè)時(shí)間復(fù)雜事件(TCE)包含多個(gè)日期，平均每個(gè)TCE包含871篇文章，超過50萬個(gè)標(biāo)記，跨越約406天，包含平均7.45個(gè)不同日期的事件。

**TIME-DIAL**：利用長(zhǎng)期多輪真實(shí)對(duì)話數(shù)據(jù)，探索社交互動(dòng)中的復(fù)雜時(shí)間依賴關(guān)系。數(shù)據(jù)來源于LOCOMO和REALTALK數(shù)據(jù)集，平均每個(gè)對(duì)話包含21個(gè)會(huì)話，超過15,000個(gè)標(biāo)記，534個(gè)對(duì)話輪次。

構(gòu)建過程中，研究團(tuán)隊(duì)首先收集時(shí)間事實(shí)，然后提取相應(yīng)的時(shí)間線?；谶@些時(shí)間線，他們使用數(shù)據(jù)合成方法生成問答對(duì)。為確保數(shù)據(jù)質(zhì)量，他們對(duì)隨機(jī)采樣的子集進(jìn)行了人工注釋，最終形成了高質(zhì)量的TIME-LITE基準(zhǔn)。

實(shí)驗(yàn)結(jié)果：大模型的時(shí)間推理能力如何？

研究團(tuán)隊(duì)對(duì)多個(gè)模型進(jìn)行了廣泛的實(shí)驗(yàn)，包括非推理模型和推理模型。實(shí)驗(yàn)結(jié)果揭示了多個(gè)有趣的發(fā)現(xiàn)：

**1. 知識(shí)密集事件中的時(shí)間理解挑戰(zhàn)**

在知識(shí)密集的場(chǎng)景中（TIME-WIKI），模型在理解隱含的時(shí)間表達(dá)和事件之間的內(nèi)在時(shí)間關(guān)系方面面臨顯著挑戰(zhàn)。即使是像OpenAI的o3-mini這樣的先進(jìn)模型，在順序推理和相對(duì)推理任務(wù)上的表現(xiàn)也僅為52.62%和48.98%，在共時(shí)性任務(wù)上只有54.34%。相比之下，在基本時(shí)間檢索和理解任務(wù)（第一層級(jí)）上的表現(xiàn)接近80%。這表明知識(shí)密集場(chǎng)景中時(shí)間信息與實(shí)體之間復(fù)雜多樣的關(guān)聯(lián)嚴(yán)重阻礙了模型準(zhǔn)確關(guān)聯(lián)時(shí)間與事實(shí)的能力。

**2. 復(fù)雜動(dòng)態(tài)事件中的時(shí)間關(guān)系和時(shí)間線構(gòu)建**

在處理快速變化的新聞事件（TIME-NEWS）時(shí)，模型在理解基本時(shí)間關(guān)系（包括時(shí)間間隔和順序）以及構(gòu)建連貫時(shí)間線方面面臨挑戰(zhàn)。推理模型o3-mini在持續(xù)時(shí)間比較和順序比較任務(wù)上的最高表現(xiàn)也只有63.33%。所有模型在時(shí)間線任務(wù)上表現(xiàn)有限，最高不超過30%。這表明復(fù)雜事件中的復(fù)雜細(xì)節(jié)導(dǎo)致模型識(shí)別出多個(gè)相似但不精確的時(shí)間點(diǎn)，從而產(chǎn)生錯(cuò)誤的預(yù)測(cè)。

**3. 超長(zhǎng)多會(huì)話對(duì)話中的時(shí)間檢索和事件-時(shí)間定位**

在處理長(zhǎng)對(duì)話（TIME-DIAL）時(shí)，開源原生模型和測(cè)試時(shí)擴(kuò)展模型在提取和定位任務(wù)上的最高準(zhǔn)確率僅為40%，明顯低于其在其他數(shù)據(jù)集上的表現(xiàn)。這可歸因于兩個(gè)主要因素：一是廣泛的對(duì)話上下文（平均超過15k標(biāo)記）和多輪交互顯著增加了時(shí)間定位的難度；二是日常對(duì)話中頻繁使用的基于記憶的時(shí)間表達(dá)（如"上周六"），需要結(jié)合對(duì)話時(shí)間戳進(jìn)行推理才能確定精確日期，進(jìn)一步阻礙了準(zhǔn)確的時(shí)間戳識(shí)別。

**4. 時(shí)間檢索能力與時(shí)間推理任務(wù)的相關(guān)性**

研究發(fā)現(xiàn)，基本的時(shí)間檢索能力與幾乎所有方面的時(shí)間推理任務(wù)顯著相關(guān)。研究團(tuán)隊(duì)計(jì)算了提取和定位任務(wù)與其他任務(wù)表現(xiàn)之間的相關(guān)系數(shù)，結(jié)果表明這兩項(xiàng)基礎(chǔ)任務(wù)與幾乎所有其他任務(wù)都具有顯著相關(guān)性（相關(guān)系數(shù)>0.5），證實(shí)了基本時(shí)間檢索與高層次時(shí)間推理能力之間存在強(qiáng)關(guān)系。

**5. 長(zhǎng)范圍上下文中把握多事件時(shí)間線的挑戰(zhàn)**

在長(zhǎng)文本上下文中掌握多事件時(shí)間線對(duì)模型來說極具挑戰(zhàn)性。小規(guī)模原生模型在TIME-WIKI和TIME-DIAL數(shù)據(jù)集的時(shí)間線任務(wù)上的準(zhǔn)確率低于10%。即使在相對(duì)簡(jiǎn)單的TIME-NEWS數(shù)據(jù)集上，僅僅對(duì)三個(gè)事件進(jìn)行重新排序也是一個(gè)顯著挑戰(zhàn)。這一難度源于時(shí)間線任務(wù)要求同時(shí)進(jìn)行復(fù)雜的時(shí)間信息檢索和全局時(shí)間排序推理，這比只需理解兩個(gè)事件順序的基本任務(wù)（如順序比較）復(fù)雜得多。

**6. 測(cè)試時(shí)擴(kuò)展對(duì)時(shí)間邏輯推理的益處**

測(cè)試時(shí)擴(kuò)展（如Deepseek-R1系列模型）通過加強(qiáng)模型的思維鏈能力，增強(qiáng)了復(fù)雜邏輯推理任務(wù)的表現(xiàn)。Deepseek-R1-Distill-Qwen-14B在時(shí)間推理任務(wù)如順序比較、持續(xù)時(shí)間比較以及處理反事實(shí)任務(wù)中的復(fù)雜時(shí)間-事件關(guān)系方面顯著優(yōu)于Qwen2.5-14B-Instruct，在TIME-DIAL數(shù)據(jù)集上分別提高了24.44%、11.33%和12.0%。這證明了測(cè)試時(shí)擴(kuò)展在增強(qiáng)復(fù)雜推理能力方面的有效性。

**7. 測(cè)試時(shí)擴(kuò)展對(duì)時(shí)間檢索和事件定位的影響不一致**

測(cè)試時(shí)擴(kuò)展模型在不同數(shù)據(jù)集上的表現(xiàn)存在顯著差異。在TIME-WIKI上，Deepseek-R1-Distill-Qwen-14B在提取和定位任務(wù)上的表現(xiàn)分別低于Qwen2.5-14B-Instruct 3.36%和8.16%。相反，在TIME-DIAL上，它在提取任務(wù)上有1.55%的改進(jìn)，但在定位任務(wù)上下降了12.49%。這種差異源于測(cè)試時(shí)擴(kuò)展模型的時(shí)間信息檢索機(jī)制：它們的系統(tǒng)化上下文遍歷策略有利于多會(huì)話對(duì)話場(chǎng)景，但在檢索錯(cuò)誤后可能導(dǎo)致過度思考循環(huán)，阻礙錯(cuò)誤糾正。

**8. 檢索器對(duì)TIME-NEWS中時(shí)間推理的影響**

檢索器的選擇顯著影響時(shí)間推理表現(xiàn)。以GPT-4o為例，使用混合檢索器的表現(xiàn)比使用BM25和向量檢索器在時(shí)間線任務(wù)上低10%以上。在順序比較任務(wù)中，不同檢索器之間也存在10%的表現(xiàn)差距。這表明準(zhǔn)確的時(shí)間事實(shí)檢索對(duì)處理動(dòng)態(tài)信息至關(guān)重要，直接影響復(fù)雜事件推理的有效性。值得注意的是，在顯式推理和順序推理任務(wù)中，在相同檢索器設(shè)置下不同模型之間的表現(xiàn)差異顯著減小，表明檢索器在這些任務(wù)的時(shí)間推理中起主導(dǎo)作用，甚至超過了不同模型的固有能力。

未來展望與挑戰(zhàn)

盡管TIME基準(zhǔn)提供了全面的評(píng)估框架，研究團(tuán)隊(duì)也指出了幾項(xiàng)局限和未來改進(jìn)方向：

**有限的真實(shí)世界上下文**：盡管基準(zhǔn)廣泛評(píng)估了知識(shí)密集場(chǎng)景、復(fù)雜時(shí)間動(dòng)態(tài)和多會(huì)話對(duì)話中的時(shí)間推理能力，但模擬環(huán)境可能無法完全捕捉現(xiàn)實(shí)世界情境的復(fù)雜性。

**靜態(tài)數(shù)據(jù)源**：盡管使用了最新可用數(shù)據(jù)（如2024年11月的WikiData數(shù)據(jù)庫轉(zhuǎn)儲(chǔ)），現(xiàn)實(shí)世界知識(shí)的不斷演變可能導(dǎo)致潛在的數(shù)據(jù)泄露問題。未來研究可以探索開發(fā)"活基準(zhǔn)"來解決這一局限。

**解碼策略限制**：為確保公平比較，研究?jī)H采用貪婪搜索解碼策略。在隨機(jī)采樣策略下的評(píng)估可能提供不同的時(shí)間推理能力洞察，盡管這會(huì)增加計(jì)算開銷。

總結(jié)：邁向更好的時(shí)間理解AI

北京大學(xué)和華為團(tuán)隊(duì)開發(fā)的TIME基準(zhǔn)為評(píng)估大語言模型的時(shí)間推理能力提供了一個(gè)系統(tǒng)化、全面的框架。通過三個(gè)漸進(jìn)層級(jí)的任務(wù)和11個(gè)細(xì)粒度子任務(wù)，TIME基準(zhǔn)捕捉了現(xiàn)實(shí)世界時(shí)間推理的復(fù)雜性。

研究結(jié)果表明，雖然最先進(jìn)的模型在基本時(shí)間理解任務(wù)上表現(xiàn)不錯(cuò)，但在處理復(fù)雜的時(shí)間表達(dá)推理和多事件時(shí)間關(guān)系（特別是在構(gòu)建時(shí)間線和執(zhí)行反事實(shí)推理）方面仍面臨顯著挑戰(zhàn)。測(cè)試時(shí)擴(kuò)展技術(shù)顯著增強(qiáng)了時(shí)間邏輯推理能力，但對(duì)時(shí)間檢索的影響因上下文類型而異。

TIME基準(zhǔn)的建立為嚴(yán)格評(píng)估和深入理解時(shí)間推理奠定了基礎(chǔ)，為未來在這一關(guān)鍵自然語言處理能力上的進(jìn)步鋪平了道路。隨著大語言模型繼續(xù)發(fā)展，像TIME這樣的基準(zhǔn)將幫助我們建立更接近人類理解水平的AI系統(tǒng)，能夠準(zhǔn)確把握時(shí)間概念，理解事件之間的復(fù)雜時(shí)間關(guān)系。

對(duì)于關(guān)注AI理解能力發(fā)展的研究人員和開發(fā)者來說，TIME基準(zhǔn)提供了一個(gè)有價(jià)值的工具，幫助評(píng)估和改進(jìn)模型的時(shí)間推理能力，這對(duì)于許多現(xiàn)實(shí)應(yīng)用（如智能助手、事件預(yù)測(cè)、歷史數(shù)據(jù)分析等）至關(guān)重要。

如果你對(duì)這項(xiàng)研究感興趣，可以在GitHub（https://github.com/sylvain-wei/TIME）訪問代碼，或在HuggingFace（https://huggingface.co/datasets/SylvainWei/TIME）獲取數(shù)據(jù)集。

大語言模型時(shí)間推理基準(zhǔn)測(cè)試

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<cite id="yekb7"></cite>