av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 時(shí)間洞察:北京大學(xué)和華為諾亞方舟實(shí)驗(yàn)室聯(lián)合打造真實(shí)場(chǎng)景下大語言模型時(shí)間推理的多層級(jí)基準(zhǔn)

時(shí)間洞察:北京大學(xué)和華為諾亞方舟實(shí)驗(yàn)室聯(lián)合打造真實(shí)場(chǎng)景下大語言模型時(shí)間推理的多層級(jí)基準(zhǔn)

2025-05-28 20:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 20:29 ? 科技行者

2025年5月,來自北京大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇關(guān)于大語言模型時(shí)間推理能力的重要研究論文。這項(xiàng)由北京大學(xué)多媒體信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室的韋少航、李威、宋飛帆、羅文和華為諾亞方舟實(shí)驗(yàn)室的莊天義、譚浩晨、郭志江,以及北京大學(xué)的王厚峰教授共同完成的研究,為評(píng)估大語言模型在現(xiàn)實(shí)世界場(chǎng)景中的時(shí)間推理能力提供了全新的評(píng)估框架。論文題為《TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios》(TIME:真實(shí)場(chǎng)景下大語言模型時(shí)間推理的多層級(jí)基準(zhǔn)),代碼和數(shù)據(jù)集已分別在GitHub和HuggingFace上開源。

為什么時(shí)間推理對(duì)大語言模型如此重要?

想象一下,你正在與朋友聊天,談?wù)撋现馨l(fā)生的事情,然后突然提到"那時(shí)候"發(fā)生的某件事。你的朋友能夠立即理解"那時(shí)候"指的是什么時(shí)間點(diǎn),因?yàn)槿祟愄焐邆鋾r(shí)間推理能力。然而,對(duì)于人工智能來說,理解時(shí)間概念和事件之間的時(shí)間關(guān)系卻是一項(xiàng)巨大的挑戰(zhàn)。

時(shí)間是現(xiàn)實(shí)世界中串聯(lián)復(fù)雜事件的關(guān)鍵線索。大語言模型(LLMs)要想真正理解世界,就必須具備像人類一樣理解時(shí)間的能力。雖然現(xiàn)在的大語言模型在數(shù)學(xué)問題解決和代碼生成等方面表現(xiàn)出色,但在處理現(xiàn)實(shí)世界中的時(shí)間理解方面仍面臨諸多困難。

研究團(tuán)隊(duì)指出,現(xiàn)實(shí)世界中的時(shí)間推理存在三大挑戰(zhàn): 1. 知識(shí)密集型信息中蘊(yùn)含的大量時(shí)間數(shù)據(jù) 2. 快速變化的事件動(dòng)態(tài) 3. 社交互動(dòng)中復(fù)雜的時(shí)間依賴關(guān)系

現(xiàn)有的評(píng)估基準(zhǔn)如TimeBench和TRAM主要關(guān)注簡(jiǎn)化場(chǎng)景,如基本的時(shí)間常識(shí)和短文本中的關(guān)系,沒有充分探索現(xiàn)實(shí)世界中復(fù)雜的時(shí)間推理能力。此外,時(shí)間推理是一個(gè)分層的能力框架,需要從基礎(chǔ)能力到復(fù)雜推理的全面評(píng)估。

TIME:一個(gè)多層級(jí)的時(shí)間推理基準(zhǔn)

針對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了TIME,一個(gè)包含38,522個(gè)問答對(duì)的多層級(jí)基準(zhǔn),涵蓋了11個(gè)細(xì)粒度子任務(wù),分布在3個(gè)不同級(jí)別。這個(gè)基準(zhǔn)由三個(gè)子數(shù)據(jù)集組成,分別對(duì)應(yīng)不同的現(xiàn)實(shí)世界挑戰(zhàn):

1. **TIME-WIKI**:評(píng)估知識(shí)密集型場(chǎng)景中的時(shí)間推理能力 2. **TIME-NEWS**:評(píng)估快速變化新聞環(huán)境中的時(shí)間理解能力 3. **TIME-DIAL**:評(píng)估具有復(fù)雜時(shí)間依賴關(guān)系的長(zhǎng)對(duì)話交互中的時(shí)間推理能力

此外,研究團(tuán)隊(duì)還創(chuàng)建了TIME-LITE,一個(gè)包含943個(gè)人工精選樣本的高質(zhì)量子集,用于標(biāo)準(zhǔn)化評(píng)估和未來研究。

多層級(jí)任務(wù)設(shè)計(jì):像人類一樣理解時(shí)間

TIME基準(zhǔn)的設(shè)計(jì)模擬了人類理解復(fù)雜動(dòng)態(tài)世界信息時(shí)使用時(shí)間概念的過程,分為三個(gè)漸進(jìn)且相互關(guān)聯(lián)的層級(jí):

**第一層級(jí):基本時(shí)間理解與檢索**

這一層級(jí)要求模型建立基礎(chǔ)時(shí)間信息處理能力,包括五個(gè)子任務(wù): - **提取(Extract)**:從文本中直接提取時(shí)間表達(dá)式(時(shí)間點(diǎn)、時(shí)間段、相對(duì)時(shí)間) - **定位(Localization)**:通過事件的時(shí)間定位評(píng)估事件-時(shí)間映射準(zhǔn)確性 - **計(jì)算(Computation)**:測(cè)試明確時(shí)間標(biāo)記之間的持續(xù)時(shí)間計(jì)算 - **持續(xù)時(shí)間比較(DurationCompare)**:測(cè)量事件之間間隔的比較能力 - **順序比較(OrderCompare)**:檢驗(yàn)對(duì)時(shí)間順序的理解

簡(jiǎn)單來說,這就像是教會(huì)AI認(rèn)識(shí)時(shí)鐘、讀懂日歷,并能回答"這件事發(fā)生在什么時(shí)候?"、"這兩個(gè)事件哪個(gè)先發(fā)生?"、"這兩件事之間隔了多長(zhǎng)時(shí)間?"等基本問題。

**第二層級(jí):時(shí)間表達(dá)推理**

這一層級(jí)要求模型通過時(shí)間表達(dá)推理來定位事件細(xì)節(jié),包括三個(gè)子任務(wù): - **顯式推理(Explicit Reasoning)**:基于未提及時(shí)間點(diǎn)/范圍的推理(例如:"毛羅·莫雷利在1967-1973年間的職業(yè)是什么?") - **順序推理(Order Reasoning)**:通過序數(shù)表達(dá)進(jìn)行時(shí)間定位(例如:"毛羅·莫雷利的第二份工作") - **相對(duì)推理(Relative Reasoning)**:涉及相對(duì)時(shí)間引用的上下文解釋(例如:"毛羅·莫雷利在最接近事件A的時(shí)候在哪工作?")

這就像是教會(huì)AI理解"昨天"、"上周"、"三年前"這類相對(duì)時(shí)間表達(dá),或者理解"第一次世界大戰(zhàn)之后"這類需要參考?xì)v史知識(shí)的時(shí)間指代。

**第三層級(jí):復(fù)雜時(shí)間關(guān)系推理**

這一層級(jí)要求模型理解和推理多個(gè)事件之間的復(fù)雜時(shí)間關(guān)系,包括三個(gè)子任務(wù): - **共時(shí)性(Co-temporality)**:識(shí)別并發(fā)事件之間重疊的時(shí)間關(guān)系(例如:"埃隆·馬斯克在擔(dān)任OpenAI職位的同時(shí)在哪里工作?") - **時(shí)間線(Timeline)**:推斷多個(gè)事件的正確時(shí)間順序(例如,按時(shí)間順序排列8個(gè)政治事件) - **反事實(shí)推理(Counterfactual Reasoning)**:在與原始上下文矛盾的時(shí)間前提下進(jìn)行時(shí)間推理(例如:"如果事件X晚了3年發(fā)生,會(huì)如何影響事件Y?")

這類似于教會(huì)AI構(gòu)建完整的事件時(shí)間線,理解同時(shí)發(fā)生的事件之間的關(guān)系,以及分析"如果歷史上某件事推遲或提前發(fā)生,會(huì)產(chǎn)生什么不同結(jié)果"這類假設(shè)性問題。

數(shù)據(jù)集構(gòu)建:從真實(shí)世界到時(shí)間推理基準(zhǔn)

研究團(tuán)隊(duì)精心設(shè)計(jì)了三個(gè)子數(shù)據(jù)集的構(gòu)建流程,確保它們能夠真實(shí)反映現(xiàn)實(shí)世界中的時(shí)間推理挑戰(zhàn):

**TIME-WIKI**:從WikiData中提取時(shí)間知識(shí)圖譜,構(gòu)建包含多跳時(shí)間知識(shí)的數(shù)據(jù)集。研究團(tuán)隊(duì)系統(tǒng)選擇了6個(gè)類別、34個(gè)WikiData屬性進(jìn)行事實(shí)提取,涵蓋教育就業(yè)、家庭關(guān)系、地理位置、命名關(guān)系、重大事件和角色身份等多個(gè)領(lǐng)域。

**TIME-NEWS**:利用在線新聞文章及其時(shí)間線,捕捉快速變化的事件動(dòng)態(tài)。每個(gè)時(shí)間復(fù)雜事件(TCE)包含多個(gè)日期,平均每個(gè)TCE包含871篇文章,超過50萬個(gè)標(biāo)記,跨越約406天,包含平均7.45個(gè)不同日期的事件。

**TIME-DIAL**:利用長(zhǎng)期多輪真實(shí)對(duì)話數(shù)據(jù),探索社交互動(dòng)中的復(fù)雜時(shí)間依賴關(guān)系。數(shù)據(jù)來源于LOCOMO和REALTALK數(shù)據(jù)集,平均每個(gè)對(duì)話包含21個(gè)會(huì)話,超過15,000個(gè)標(biāo)記,534個(gè)對(duì)話輪次。

構(gòu)建過程中,研究團(tuán)隊(duì)首先收集時(shí)間事實(shí),然后提取相應(yīng)的時(shí)間線?;谶@些時(shí)間線,他們使用數(shù)據(jù)合成方法生成問答對(duì)。為確保數(shù)據(jù)質(zhì)量,他們對(duì)隨機(jī)采樣的子集進(jìn)行了人工注釋,最終形成了高質(zhì)量的TIME-LITE基準(zhǔn)。

實(shí)驗(yàn)結(jié)果:大模型的時(shí)間推理能力如何?

研究團(tuán)隊(duì)對(duì)多個(gè)模型進(jìn)行了廣泛的實(shí)驗(yàn),包括非推理模型和推理模型。實(shí)驗(yàn)結(jié)果揭示了多個(gè)有趣的發(fā)現(xiàn):

**1. 知識(shí)密集事件中的時(shí)間理解挑戰(zhàn)**

在知識(shí)密集的場(chǎng)景中(TIME-WIKI),模型在理解隱含的時(shí)間表達(dá)和事件之間的內(nèi)在時(shí)間關(guān)系方面面臨顯著挑戰(zhàn)。即使是像OpenAI的o3-mini這樣的先進(jìn)模型,在順序推理和相對(duì)推理任務(wù)上的表現(xiàn)也僅為52.62%和48.98%,在共時(shí)性任務(wù)上只有54.34%。相比之下,在基本時(shí)間檢索和理解任務(wù)(第一層級(jí))上的表現(xiàn)接近80%。這表明知識(shí)密集場(chǎng)景中時(shí)間信息與實(shí)體之間復(fù)雜多樣的關(guān)聯(lián)嚴(yán)重阻礙了模型準(zhǔn)確關(guān)聯(lián)時(shí)間與事實(shí)的能力。

**2. 復(fù)雜動(dòng)態(tài)事件中的時(shí)間關(guān)系和時(shí)間線構(gòu)建**

在處理快速變化的新聞事件(TIME-NEWS)時(shí),模型在理解基本時(shí)間關(guān)系(包括時(shí)間間隔和順序)以及構(gòu)建連貫時(shí)間線方面面臨挑戰(zhàn)。推理模型o3-mini在持續(xù)時(shí)間比較和順序比較任務(wù)上的最高表現(xiàn)也只有63.33%。所有模型在時(shí)間線任務(wù)上表現(xiàn)有限,最高不超過30%。這表明復(fù)雜事件中的復(fù)雜細(xì)節(jié)導(dǎo)致模型識(shí)別出多個(gè)相似但不精確的時(shí)間點(diǎn),從而產(chǎn)生錯(cuò)誤的預(yù)測(cè)。

**3. 超長(zhǎng)多會(huì)話對(duì)話中的時(shí)間檢索和事件-時(shí)間定位**

在處理長(zhǎng)對(duì)話(TIME-DIAL)時(shí),開源原生模型和測(cè)試時(shí)擴(kuò)展模型在提取和定位任務(wù)上的最高準(zhǔn)確率僅為40%,明顯低于其在其他數(shù)據(jù)集上的表現(xiàn)。這可歸因于兩個(gè)主要因素:一是廣泛的對(duì)話上下文(平均超過15k標(biāo)記)和多輪交互顯著增加了時(shí)間定位的難度;二是日常對(duì)話中頻繁使用的基于記憶的時(shí)間表達(dá)(如"上周六"),需要結(jié)合對(duì)話時(shí)間戳進(jìn)行推理才能確定精確日期,進(jìn)一步阻礙了準(zhǔn)確的時(shí)間戳識(shí)別。

**4. 時(shí)間檢索能力與時(shí)間推理任務(wù)的相關(guān)性**

研究發(fā)現(xiàn),基本的時(shí)間檢索能力與幾乎所有方面的時(shí)間推理任務(wù)顯著相關(guān)。研究團(tuán)隊(duì)計(jì)算了提取和定位任務(wù)與其他任務(wù)表現(xiàn)之間的相關(guān)系數(shù),結(jié)果表明這兩項(xiàng)基礎(chǔ)任務(wù)與幾乎所有其他任務(wù)都具有顯著相關(guān)性(相關(guān)系數(shù)>0.5),證實(shí)了基本時(shí)間檢索與高層次時(shí)間推理能力之間存在強(qiáng)關(guān)系。

**5. 長(zhǎng)范圍上下文中把握多事件時(shí)間線的挑戰(zhàn)**

在長(zhǎng)文本上下文中掌握多事件時(shí)間線對(duì)模型來說極具挑戰(zhàn)性。小規(guī)模原生模型在TIME-WIKI和TIME-DIAL數(shù)據(jù)集的時(shí)間線任務(wù)上的準(zhǔn)確率低于10%。即使在相對(duì)簡(jiǎn)單的TIME-NEWS數(shù)據(jù)集上,僅僅對(duì)三個(gè)事件進(jìn)行重新排序也是一個(gè)顯著挑戰(zhàn)。這一難度源于時(shí)間線任務(wù)要求同時(shí)進(jìn)行復(fù)雜的時(shí)間信息檢索和全局時(shí)間排序推理,這比只需理解兩個(gè)事件順序的基本任務(wù)(如順序比較)復(fù)雜得多。

**6. 測(cè)試時(shí)擴(kuò)展對(duì)時(shí)間邏輯推理的益處**

測(cè)試時(shí)擴(kuò)展(如Deepseek-R1系列模型)通過加強(qiáng)模型的思維鏈能力,增強(qiáng)了復(fù)雜邏輯推理任務(wù)的表現(xiàn)。Deepseek-R1-Distill-Qwen-14B在時(shí)間推理任務(wù)如順序比較、持續(xù)時(shí)間比較以及處理反事實(shí)任務(wù)中的復(fù)雜時(shí)間-事件關(guān)系方面顯著優(yōu)于Qwen2.5-14B-Instruct,在TIME-DIAL數(shù)據(jù)集上分別提高了24.44%、11.33%和12.0%。這證明了測(cè)試時(shí)擴(kuò)展在增強(qiáng)復(fù)雜推理能力方面的有效性。

**7. 測(cè)試時(shí)擴(kuò)展對(duì)時(shí)間檢索和事件定位的影響不一致**

測(cè)試時(shí)擴(kuò)展模型在不同數(shù)據(jù)集上的表現(xiàn)存在顯著差異。在TIME-WIKI上,Deepseek-R1-Distill-Qwen-14B在提取和定位任務(wù)上的表現(xiàn)分別低于Qwen2.5-14B-Instruct 3.36%和8.16%。相反,在TIME-DIAL上,它在提取任務(wù)上有1.55%的改進(jìn),但在定位任務(wù)上下降了12.49%。這種差異源于測(cè)試時(shí)擴(kuò)展模型的時(shí)間信息檢索機(jī)制:它們的系統(tǒng)化上下文遍歷策略有利于多會(huì)話對(duì)話場(chǎng)景,但在檢索錯(cuò)誤后可能導(dǎo)致過度思考循環(huán),阻礙錯(cuò)誤糾正。

**8. 檢索器對(duì)TIME-NEWS中時(shí)間推理的影響**

檢索器的選擇顯著影響時(shí)間推理表現(xiàn)。以GPT-4o為例,使用混合檢索器的表現(xiàn)比使用BM25和向量檢索器在時(shí)間線任務(wù)上低10%以上。在順序比較任務(wù)中,不同檢索器之間也存在10%的表現(xiàn)差距。這表明準(zhǔn)確的時(shí)間事實(shí)檢索對(duì)處理動(dòng)態(tài)信息至關(guān)重要,直接影響復(fù)雜事件推理的有效性。值得注意的是,在顯式推理和順序推理任務(wù)中,在相同檢索器設(shè)置下不同模型之間的表現(xiàn)差異顯著減小,表明檢索器在這些任務(wù)的時(shí)間推理中起主導(dǎo)作用,甚至超過了不同模型的固有能力。

未來展望與挑戰(zhàn)

盡管TIME基準(zhǔn)提供了全面的評(píng)估框架,研究團(tuán)隊(duì)也指出了幾項(xiàng)局限和未來改進(jìn)方向:

**有限的真實(shí)世界上下文**:盡管基準(zhǔn)廣泛評(píng)估了知識(shí)密集場(chǎng)景、復(fù)雜時(shí)間動(dòng)態(tài)和多會(huì)話對(duì)話中的時(shí)間推理能力,但模擬環(huán)境可能無法完全捕捉現(xiàn)實(shí)世界情境的復(fù)雜性。

**靜態(tài)數(shù)據(jù)源**:盡管使用了最新可用數(shù)據(jù)(如2024年11月的WikiData數(shù)據(jù)庫轉(zhuǎn)儲(chǔ)),現(xiàn)實(shí)世界知識(shí)的不斷演變可能導(dǎo)致潛在的數(shù)據(jù)泄露問題。未來研究可以探索開發(fā)"活基準(zhǔn)"來解決這一局限。

**解碼策略限制**:為確保公平比較,研究?jī)H采用貪婪搜索解碼策略。在隨機(jī)采樣策略下的評(píng)估可能提供不同的時(shí)間推理能力洞察,盡管這會(huì)增加計(jì)算開銷。

總結(jié):邁向更好的時(shí)間理解AI

北京大學(xué)和華為團(tuán)隊(duì)開發(fā)的TIME基準(zhǔn)為評(píng)估大語言模型的時(shí)間推理能力提供了一個(gè)系統(tǒng)化、全面的框架。通過三個(gè)漸進(jìn)層級(jí)的任務(wù)和11個(gè)細(xì)粒度子任務(wù),TIME基準(zhǔn)捕捉了現(xiàn)實(shí)世界時(shí)間推理的復(fù)雜性。

研究結(jié)果表明,雖然最先進(jìn)的模型在基本時(shí)間理解任務(wù)上表現(xiàn)不錯(cuò),但在處理復(fù)雜的時(shí)間表達(dá)推理和多事件時(shí)間關(guān)系(特別是在構(gòu)建時(shí)間線和執(zhí)行反事實(shí)推理)方面仍面臨顯著挑戰(zhàn)。測(cè)試時(shí)擴(kuò)展技術(shù)顯著增強(qiáng)了時(shí)間邏輯推理能力,但對(duì)時(shí)間檢索的影響因上下文類型而異。

TIME基準(zhǔn)的建立為嚴(yán)格評(píng)估和深入理解時(shí)間推理奠定了基礎(chǔ),為未來在這一關(guān)鍵自然語言處理能力上的進(jìn)步鋪平了道路。隨著大語言模型繼續(xù)發(fā)展,像TIME這樣的基準(zhǔn)將幫助我們建立更接近人類理解水平的AI系統(tǒng),能夠準(zhǔn)確把握時(shí)間概念,理解事件之間的復(fù)雜時(shí)間關(guān)系。

對(duì)于關(guān)注AI理解能力發(fā)展的研究人員和開發(fā)者來說,TIME基準(zhǔn)提供了一個(gè)有價(jià)值的工具,幫助評(píng)估和改進(jìn)模型的時(shí)間推理能力,這對(duì)于許多現(xiàn)實(shí)應(yīng)用(如智能助手、事件預(yù)測(cè)、歷史數(shù)據(jù)分析等)至關(guān)重要。

如果你對(duì)這項(xiàng)研究感興趣,可以在GitHub(https://github.com/sylvain-wei/TIME)訪問代碼,或在HuggingFace(https://huggingface.co/datasets/SylvainWei/TIME)獲取數(shù)據(jù)集。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-