av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 時間洞察:北京大學(xué)和華為諾亞方舟實驗室聯(lián)合打造真實場景下大語言模型時間推理的多層級基準(zhǔn)

時間洞察:北京大學(xué)和華為諾亞方舟實驗室聯(lián)合打造真實場景下大語言模型時間推理的多層級基準(zhǔn)

2025-05-28 20:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 20:29 ? 科技行者

2025年5月,來自北京大學(xué)和華為諾亞方舟實驗室的研究團(tuán)隊在arXiv上發(fā)布了一篇關(guān)于大語言模型時間推理能力的重要研究論文。這項由北京大學(xué)多媒體信息處理國家重點實驗室的韋少航、李威、宋飛帆、羅文和華為諾亞方舟實驗室的莊天義、譚浩晨、郭志江,以及北京大學(xué)的王厚峰教授共同完成的研究,為評估大語言模型在現(xiàn)實世界場景中的時間推理能力提供了全新的評估框架。論文題為《TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios》(TIME:真實場景下大語言模型時間推理的多層級基準(zhǔn)),代碼和數(shù)據(jù)集已分別在GitHub和HuggingFace上開源。

為什么時間推理對大語言模型如此重要?

想象一下,你正在與朋友聊天,談?wù)撋现馨l(fā)生的事情,然后突然提到"那時候"發(fā)生的某件事。你的朋友能夠立即理解"那時候"指的是什么時間點,因為人類天生具備時間推理能力。然而,對于人工智能來說,理解時間概念和事件之間的時間關(guān)系卻是一項巨大的挑戰(zhàn)。

時間是現(xiàn)實世界中串聯(lián)復(fù)雜事件的關(guān)鍵線索。大語言模型(LLMs)要想真正理解世界,就必須具備像人類一樣理解時間的能力。雖然現(xiàn)在的大語言模型在數(shù)學(xué)問題解決和代碼生成等方面表現(xiàn)出色,但在處理現(xiàn)實世界中的時間理解方面仍面臨諸多困難。

研究團(tuán)隊指出,現(xiàn)實世界中的時間推理存在三大挑戰(zhàn): 1. 知識密集型信息中蘊含的大量時間數(shù)據(jù) 2. 快速變化的事件動態(tài) 3. 社交互動中復(fù)雜的時間依賴關(guān)系

現(xiàn)有的評估基準(zhǔn)如TimeBench和TRAM主要關(guān)注簡化場景,如基本的時間常識和短文本中的關(guān)系,沒有充分探索現(xiàn)實世界中復(fù)雜的時間推理能力。此外,時間推理是一個分層的能力框架,需要從基礎(chǔ)能力到復(fù)雜推理的全面評估。

TIME:一個多層級的時間推理基準(zhǔn)

針對這些挑戰(zhàn),研究團(tuán)隊提出了TIME,一個包含38,522個問答對的多層級基準(zhǔn),涵蓋了11個細(xì)粒度子任務(wù),分布在3個不同級別。這個基準(zhǔn)由三個子數(shù)據(jù)集組成,分別對應(yīng)不同的現(xiàn)實世界挑戰(zhàn):

1. **TIME-WIKI**:評估知識密集型場景中的時間推理能力 2. **TIME-NEWS**:評估快速變化新聞環(huán)境中的時間理解能力 3. **TIME-DIAL**:評估具有復(fù)雜時間依賴關(guān)系的長對話交互中的時間推理能力

此外,研究團(tuán)隊還創(chuàng)建了TIME-LITE,一個包含943個人工精選樣本的高質(zhì)量子集,用于標(biāo)準(zhǔn)化評估和未來研究。

多層級任務(wù)設(shè)計:像人類一樣理解時間

TIME基準(zhǔn)的設(shè)計模擬了人類理解復(fù)雜動態(tài)世界信息時使用時間概念的過程,分為三個漸進(jìn)且相互關(guān)聯(lián)的層級:

**第一層級:基本時間理解與檢索**

這一層級要求模型建立基礎(chǔ)時間信息處理能力,包括五個子任務(wù): - **提取(Extract)**:從文本中直接提取時間表達(dá)式(時間點、時間段、相對時間) - **定位(Localization)**:通過事件的時間定位評估事件-時間映射準(zhǔn)確性 - **計算(Computation)**:測試明確時間標(biāo)記之間的持續(xù)時間計算 - **持續(xù)時間比較(DurationCompare)**:測量事件之間間隔的比較能力 - **順序比較(OrderCompare)**:檢驗對時間順序的理解

簡單來說,這就像是教會AI認(rèn)識時鐘、讀懂日歷,并能回答"這件事發(fā)生在什么時候?"、"這兩個事件哪個先發(fā)生?"、"這兩件事之間隔了多長時間?"等基本問題。

**第二層級:時間表達(dá)推理**

這一層級要求模型通過時間表達(dá)推理來定位事件細(xì)節(jié),包括三個子任務(wù): - **顯式推理(Explicit Reasoning)**:基于未提及時間點/范圍的推理(例如:"毛羅·莫雷利在1967-1973年間的職業(yè)是什么?") - **順序推理(Order Reasoning)**:通過序數(shù)表達(dá)進(jìn)行時間定位(例如:"毛羅·莫雷利的第二份工作") - **相對推理(Relative Reasoning)**:涉及相對時間引用的上下文解釋(例如:"毛羅·莫雷利在最接近事件A的時候在哪工作?")

這就像是教會AI理解"昨天"、"上周"、"三年前"這類相對時間表達(dá),或者理解"第一次世界大戰(zhàn)之后"這類需要參考?xì)v史知識的時間指代。

**第三層級:復(fù)雜時間關(guān)系推理**

這一層級要求模型理解和推理多個事件之間的復(fù)雜時間關(guān)系,包括三個子任務(wù): - **共時性(Co-temporality)**:識別并發(fā)事件之間重疊的時間關(guān)系(例如:"埃隆·馬斯克在擔(dān)任OpenAI職位的同時在哪里工作?") - **時間線(Timeline)**:推斷多個事件的正確時間順序(例如,按時間順序排列8個政治事件) - **反事實推理(Counterfactual Reasoning)**:在與原始上下文矛盾的時間前提下進(jìn)行時間推理(例如:"如果事件X晚了3年發(fā)生,會如何影響事件Y?")

這類似于教會AI構(gòu)建完整的事件時間線,理解同時發(fā)生的事件之間的關(guān)系,以及分析"如果歷史上某件事推遲或提前發(fā)生,會產(chǎn)生什么不同結(jié)果"這類假設(shè)性問題。

數(shù)據(jù)集構(gòu)建:從真實世界到時間推理基準(zhǔn)

研究團(tuán)隊精心設(shè)計了三個子數(shù)據(jù)集的構(gòu)建流程,確保它們能夠真實反映現(xiàn)實世界中的時間推理挑戰(zhàn):

**TIME-WIKI**:從WikiData中提取時間知識圖譜,構(gòu)建包含多跳時間知識的數(shù)據(jù)集。研究團(tuán)隊系統(tǒng)選擇了6個類別、34個WikiData屬性進(jìn)行事實提取,涵蓋教育就業(yè)、家庭關(guān)系、地理位置、命名關(guān)系、重大事件和角色身份等多個領(lǐng)域。

**TIME-NEWS**:利用在線新聞文章及其時間線,捕捉快速變化的事件動態(tài)。每個時間復(fù)雜事件(TCE)包含多個日期,平均每個TCE包含871篇文章,超過50萬個標(biāo)記,跨越約406天,包含平均7.45個不同日期的事件。

**TIME-DIAL**:利用長期多輪真實對話數(shù)據(jù),探索社交互動中的復(fù)雜時間依賴關(guān)系。數(shù)據(jù)來源于LOCOMO和REALTALK數(shù)據(jù)集,平均每個對話包含21個會話,超過15,000個標(biāo)記,534個對話輪次。

構(gòu)建過程中,研究團(tuán)隊首先收集時間事實,然后提取相應(yīng)的時間線。基于這些時間線,他們使用數(shù)據(jù)合成方法生成問答對。為確保數(shù)據(jù)質(zhì)量,他們對隨機(jī)采樣的子集進(jìn)行了人工注釋,最終形成了高質(zhì)量的TIME-LITE基準(zhǔn)。

實驗結(jié)果:大模型的時間推理能力如何?

研究團(tuán)隊對多個模型進(jìn)行了廣泛的實驗,包括非推理模型和推理模型。實驗結(jié)果揭示了多個有趣的發(fā)現(xiàn):

**1. 知識密集事件中的時間理解挑戰(zhàn)**

在知識密集的場景中(TIME-WIKI),模型在理解隱含的時間表達(dá)和事件之間的內(nèi)在時間關(guān)系方面面臨顯著挑戰(zhàn)。即使是像OpenAI的o3-mini這樣的先進(jìn)模型,在順序推理和相對推理任務(wù)上的表現(xiàn)也僅為52.62%和48.98%,在共時性任務(wù)上只有54.34%。相比之下,在基本時間檢索和理解任務(wù)(第一層級)上的表現(xiàn)接近80%。這表明知識密集場景中時間信息與實體之間復(fù)雜多樣的關(guān)聯(lián)嚴(yán)重阻礙了模型準(zhǔn)確關(guān)聯(lián)時間與事實的能力。

**2. 復(fù)雜動態(tài)事件中的時間關(guān)系和時間線構(gòu)建**

在處理快速變化的新聞事件(TIME-NEWS)時,模型在理解基本時間關(guān)系(包括時間間隔和順序)以及構(gòu)建連貫時間線方面面臨挑戰(zhàn)。推理模型o3-mini在持續(xù)時間比較和順序比較任務(wù)上的最高表現(xiàn)也只有63.33%。所有模型在時間線任務(wù)上表現(xiàn)有限,最高不超過30%。這表明復(fù)雜事件中的復(fù)雜細(xì)節(jié)導(dǎo)致模型識別出多個相似但不精確的時間點,從而產(chǎn)生錯誤的預(yù)測。

**3. 超長多會話對話中的時間檢索和事件-時間定位**

在處理長對話(TIME-DIAL)時,開源原生模型和測試時擴(kuò)展模型在提取和定位任務(wù)上的最高準(zhǔn)確率僅為40%,明顯低于其在其他數(shù)據(jù)集上的表現(xiàn)。這可歸因于兩個主要因素:一是廣泛的對話上下文(平均超過15k標(biāo)記)和多輪交互顯著增加了時間定位的難度;二是日常對話中頻繁使用的基于記憶的時間表達(dá)(如"上周六"),需要結(jié)合對話時間戳進(jìn)行推理才能確定精確日期,進(jìn)一步阻礙了準(zhǔn)確的時間戳識別。

**4. 時間檢索能力與時間推理任務(wù)的相關(guān)性**

研究發(fā)現(xiàn),基本的時間檢索能力與幾乎所有方面的時間推理任務(wù)顯著相關(guān)。研究團(tuán)隊計算了提取和定位任務(wù)與其他任務(wù)表現(xiàn)之間的相關(guān)系數(shù),結(jié)果表明這兩項基礎(chǔ)任務(wù)與幾乎所有其他任務(wù)都具有顯著相關(guān)性(相關(guān)系數(shù)>0.5),證實了基本時間檢索與高層次時間推理能力之間存在強(qiáng)關(guān)系。

**5. 長范圍上下文中把握多事件時間線的挑戰(zhàn)**

在長文本上下文中掌握多事件時間線對模型來說極具挑戰(zhàn)性。小規(guī)模原生模型在TIME-WIKI和TIME-DIAL數(shù)據(jù)集的時間線任務(wù)上的準(zhǔn)確率低于10%。即使在相對簡單的TIME-NEWS數(shù)據(jù)集上,僅僅對三個事件進(jìn)行重新排序也是一個顯著挑戰(zhàn)。這一難度源于時間線任務(wù)要求同時進(jìn)行復(fù)雜的時間信息檢索和全局時間排序推理,這比只需理解兩個事件順序的基本任務(wù)(如順序比較)復(fù)雜得多。

**6. 測試時擴(kuò)展對時間邏輯推理的益處**

測試時擴(kuò)展(如Deepseek-R1系列模型)通過加強(qiáng)模型的思維鏈能力,增強(qiáng)了復(fù)雜邏輯推理任務(wù)的表現(xiàn)。Deepseek-R1-Distill-Qwen-14B在時間推理任務(wù)如順序比較、持續(xù)時間比較以及處理反事實任務(wù)中的復(fù)雜時間-事件關(guān)系方面顯著優(yōu)于Qwen2.5-14B-Instruct,在TIME-DIAL數(shù)據(jù)集上分別提高了24.44%、11.33%和12.0%。這證明了測試時擴(kuò)展在增強(qiáng)復(fù)雜推理能力方面的有效性。

**7. 測試時擴(kuò)展對時間檢索和事件定位的影響不一致**

測試時擴(kuò)展模型在不同數(shù)據(jù)集上的表現(xiàn)存在顯著差異。在TIME-WIKI上,Deepseek-R1-Distill-Qwen-14B在提取和定位任務(wù)上的表現(xiàn)分別低于Qwen2.5-14B-Instruct 3.36%和8.16%。相反,在TIME-DIAL上,它在提取任務(wù)上有1.55%的改進(jìn),但在定位任務(wù)上下降了12.49%。這種差異源于測試時擴(kuò)展模型的時間信息檢索機(jī)制:它們的系統(tǒng)化上下文遍歷策略有利于多會話對話場景,但在檢索錯誤后可能導(dǎo)致過度思考循環(huán),阻礙錯誤糾正。

**8. 檢索器對TIME-NEWS中時間推理的影響**

檢索器的選擇顯著影響時間推理表現(xiàn)。以GPT-4o為例,使用混合檢索器的表現(xiàn)比使用BM25和向量檢索器在時間線任務(wù)上低10%以上。在順序比較任務(wù)中,不同檢索器之間也存在10%的表現(xiàn)差距。這表明準(zhǔn)確的時間事實檢索對處理動態(tài)信息至關(guān)重要,直接影響復(fù)雜事件推理的有效性。值得注意的是,在顯式推理和順序推理任務(wù)中,在相同檢索器設(shè)置下不同模型之間的表現(xiàn)差異顯著減小,表明檢索器在這些任務(wù)的時間推理中起主導(dǎo)作用,甚至超過了不同模型的固有能力。

未來展望與挑戰(zhàn)

盡管TIME基準(zhǔn)提供了全面的評估框架,研究團(tuán)隊也指出了幾項局限和未來改進(jìn)方向:

**有限的真實世界上下文**:盡管基準(zhǔn)廣泛評估了知識密集場景、復(fù)雜時間動態(tài)和多會話對話中的時間推理能力,但模擬環(huán)境可能無法完全捕捉現(xiàn)實世界情境的復(fù)雜性。

**靜態(tài)數(shù)據(jù)源**:盡管使用了最新可用數(shù)據(jù)(如2024年11月的WikiData數(shù)據(jù)庫轉(zhuǎn)儲),現(xiàn)實世界知識的不斷演變可能導(dǎo)致潛在的數(shù)據(jù)泄露問題。未來研究可以探索開發(fā)"活基準(zhǔn)"來解決這一局限。

**解碼策略限制**:為確保公平比較,研究僅采用貪婪搜索解碼策略。在隨機(jī)采樣策略下的評估可能提供不同的時間推理能力洞察,盡管這會增加計算開銷。

總結(jié):邁向更好的時間理解AI

北京大學(xué)和華為團(tuán)隊開發(fā)的TIME基準(zhǔn)為評估大語言模型的時間推理能力提供了一個系統(tǒng)化、全面的框架。通過三個漸進(jìn)層級的任務(wù)和11個細(xì)粒度子任務(wù),TIME基準(zhǔn)捕捉了現(xiàn)實世界時間推理的復(fù)雜性。

研究結(jié)果表明,雖然最先進(jìn)的模型在基本時間理解任務(wù)上表現(xiàn)不錯,但在處理復(fù)雜的時間表達(dá)推理和多事件時間關(guān)系(特別是在構(gòu)建時間線和執(zhí)行反事實推理)方面仍面臨顯著挑戰(zhàn)。測試時擴(kuò)展技術(shù)顯著增強(qiáng)了時間邏輯推理能力,但對時間檢索的影響因上下文類型而異。

TIME基準(zhǔn)的建立為嚴(yán)格評估和深入理解時間推理奠定了基礎(chǔ),為未來在這一關(guān)鍵自然語言處理能力上的進(jìn)步鋪平了道路。隨著大語言模型繼續(xù)發(fā)展,像TIME這樣的基準(zhǔn)將幫助我們建立更接近人類理解水平的AI系統(tǒng),能夠準(zhǔn)確把握時間概念,理解事件之間的復(fù)雜時間關(guān)系。

對于關(guān)注AI理解能力發(fā)展的研究人員和開發(fā)者來說,TIME基準(zhǔn)提供了一個有價值的工具,幫助評估和改進(jìn)模型的時間推理能力,這對于許多現(xiàn)實應(yīng)用(如智能助手、事件預(yù)測、歷史數(shù)據(jù)分析等)至關(guān)重要。

如果你對這項研究感興趣,可以在GitHub(https://github.com/sylvain-wei/TIME)訪問代碼,或在HuggingFace(https://huggingface.co/datasets/SylvainWei/TIME)獲取數(shù)據(jù)集。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-