av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大模型預(yù)測(cè)未來的評(píng)估陷阱:評(píng)估語言模型預(yù)測(cè)能力的困境與誤區(qū)

大模型預(yù)測(cè)未來的評(píng)估陷阱:評(píng)估語言模型預(yù)測(cè)能力的困境與誤區(qū)

2025-06-06 11:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 11:21 ? 科技行者

近日,由ETH蘇黎世大學(xué)的Daniel Paleka和Florian Tramèr,以及ELLIS圖賓根研究所和MPI圖賓根的Shashwat Goel和Jonas Geiping共同完成的一項(xiàng)研究引起了廣泛關(guān)注。這篇題為《評(píng)估語言模型預(yù)測(cè)者的陷阱》(Pitfalls in Evaluating Language Model Forecasters)的論文發(fā)表于2025年5月31日的arXiv預(yù)印本平臺(tái)(arXiv:2506.00723v1),深入探討了一個(gè)逐漸受到重視的問題:我們?nèi)绾握_評(píng)估大型語言模型(LLM)的預(yù)測(cè)能力?

近年來,越來越多的研究表明大型語言模型在預(yù)測(cè)未來事件方面顯示出驚人的能力,有些研究甚至聲稱這些AI系統(tǒng)已經(jīng)能夠媲美甚至超越人類預(yù)測(cè)者。但這些引人注目的結(jié)論真的可靠嗎?這正是本研究要探討的核心問題。

想象一下,如果有人告訴你:"我的AI系統(tǒng)可以準(zhǔn)確預(yù)測(cè)明年的股市走勢(shì)!"你會(huì)不會(huì)覺得有些懷疑?就像看到街邊算命先生聲稱能預(yù)測(cè)你的未來一樣,我們需要用批判性思維來審視這些聲稱能"預(yù)見未來"的AI系統(tǒng)。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前評(píng)估語言模型預(yù)測(cè)能力的方法存在許多容易被忽視的陷阱,如果不小心,我們可能會(huì)對(duì)這些系統(tǒng)的實(shí)際能力產(chǎn)生誤解。

這項(xiàng)研究的獨(dú)特之處在于,它不是開發(fā)一個(gè)更強(qiáng)大的預(yù)測(cè)系統(tǒng),而是檢視我們?nèi)绾卧u(píng)估這些系統(tǒng)的方法本身。就像科學(xué)家不僅要做實(shí)驗(yàn),還要確保測(cè)量工具本身是準(zhǔn)確的一樣,我們?cè)谠u(píng)價(jià)AI的預(yù)測(cè)能力時(shí),也需要確保我們的評(píng)估方法是可靠的。

研究人員將評(píng)估中的問題分為兩大類:第一,難以確保評(píng)估結(jié)果的可信度,因?yàn)榇嬖诟鞣N形式的時(shí)間信息泄露;第二,難以將評(píng)估結(jié)果外推到實(shí)際應(yīng)用場(chǎng)景,因?yàn)榛鶞?zhǔn)測(cè)試的表現(xiàn)可能無法反映真實(shí)預(yù)測(cè)能力。通過對(duì)這些問題的系統(tǒng)分析,研究團(tuán)隊(duì)提出了更嚴(yán)格的評(píng)估方法建議,幫助我們更準(zhǔn)確地判斷語言模型的預(yù)測(cè)能力。

讓我們深入了解這些挑戰(zhàn),看看為什么評(píng)估未來預(yù)測(cè)如此困難,以及如何避免這些評(píng)估陷阱。

一、難以確保評(píng)估結(jié)果的可信度

評(píng)估一個(gè)預(yù)測(cè)系統(tǒng)的理想方法是什么?最直接的做法是提出一些關(guān)于未來的問題,收集系統(tǒng)的預(yù)測(cè),然后等待這些事件自然發(fā)生或不發(fā)生,最后根據(jù)實(shí)際結(jié)果對(duì)預(yù)測(cè)進(jìn)行評(píng)分。然而,這種方法需要等待數(shù)月甚至數(shù)年才能完成評(píng)估,這顯然不適合快速迭代開發(fā)AI系統(tǒng)。

因此,研究人員通常會(huì)采用"回測(cè)"(backtesting)或"回溯預(yù)測(cè)"(retrodiction)的方法。這種方法的基本思路是:假設(shè)現(xiàn)在是過去某個(gè)時(shí)間點(diǎn)T,給AI系統(tǒng)提供截至?xí)r間T的知識(shí),然后讓它預(yù)測(cè)時(shí)間T到現(xiàn)在之間發(fā)生的事件。這聽起來很合理,但實(shí)際上存在多種可能導(dǎo)致評(píng)估結(jié)果不可信的隱藏問題。

### 邏輯信息泄露

想象一下這個(gè)場(chǎng)景:假設(shè)現(xiàn)在是2030年,有人請(qǐng)你預(yù)測(cè)"在2028年,人類是否發(fā)現(xiàn)了外星生命?"作為一個(gè)生活在2025年的人,你可能會(huì)給出一個(gè)基于當(dāng)前科學(xué)進(jìn)展的謹(jǐn)慎估計(jì)。但如果這個(gè)問題是在2030年被提出的,你可能會(huì)推理:"如果到2030年人類還沒有確鑿證據(jù)證明外星生命的存在,那么答案很可能是'否',否則提問者不會(huì)用這種方式提問。"

這就是"邏輯泄露"的一個(gè)例子。當(dāng)我們?cè)诨販y(cè)中使用已知結(jié)果的問題時(shí),問題的設(shè)定方式本身可能暗示了答案。研究團(tuán)隊(duì)發(fā)現(xiàn),在多個(gè)現(xiàn)有的預(yù)測(cè)基準(zhǔn)測(cè)試中,有相當(dāng)一部分問題存在這種邏輯泄露問題,使得模型可以通過簡單的邏輯推理而不是真正的預(yù)測(cè)能力得出正確答案。

例如,Halawi等人的研究使用了一個(gè)包含2023年6月至2024年1月期間已解決問題的數(shù)據(jù)集,但他們沒有過濾掉那些可能在該時(shí)間窗口內(nèi)無法解決的問題(如"蘇丹會(huì)在2036年前經(jīng)歷內(nèi)戰(zhàn)嗎?")。研究團(tuán)隊(duì)發(fā)現(xiàn),至少3.8%的問題屬于這種"提前解決"的類型,不需要任何預(yù)測(cè)能力就能回答。

### 日期限制檢索的不可靠性

許多預(yù)測(cè)系統(tǒng)會(huì)使用檢索組件(如搜索引擎)來獲取信息,并限制只使用時(shí)間T之前的數(shù)據(jù)。然而,這種時(shí)間限制往往不可靠,原因有三:

首先,網(wǎng)頁上的日期元數(shù)據(jù)經(jīng)常不準(zhǔn)確,未來的數(shù)據(jù)可能被錯(cuò)誤標(biāo)記為過去的日期。

其次,即使文檔日期正確,檢索模型本身可能是在包含未來數(shù)據(jù)的環(huán)境中訓(xùn)練的,導(dǎo)致通過學(xué)習(xí)到的關(guān)聯(lián)性產(chǎn)生信息泄露。

舉個(gè)例子,研究團(tuán)隊(duì)發(fā)現(xiàn),在Google搜索中,如果限制只返回2020年之前的結(jié)果并搜索"1月6日",搜索結(jié)果會(huì)顯示與美國政治異常相關(guān)的內(nèi)容,這種關(guān)聯(lián)性在2020年標(biāo)準(zhǔn)下是不正常的,因?yàn)?月6日與美國政治的強(qiáng)關(guān)聯(lián)是在2021年1月6日國會(huì)山事件后才形成的。

想象一下,這就像是你把時(shí)間機(jī)器設(shè)定到2019年,想查詢關(guān)于某個(gè)普通日期的信息,但搜索引擎卻提供了受到未來事件影響的結(jié)果,就好比在2019年的書店里,發(fā)現(xiàn)了一本提及2020年新冠疫情的書一樣。

同樣,如果搜索"武漢"并限制結(jié)果為2018年12月之前,結(jié)果中會(huì)prominently顯示武漢病毒研究所的內(nèi)容,而這個(gè)研究所在國際上的知名度是在COVID-19疫情之后才大幅提高的。

### 對(duì)模型知識(shí)截止日期的過度依賴

模型創(chuàng)建者通常會(huì)報(bào)告一個(gè)"知識(shí)截止日期",指示模型的知識(shí)在該日期之后不再更新。研究人員經(jīng)常根據(jù)這個(gè)日期來決定哪些事件對(duì)模型來說是"未來"事件。

然而,這些截止日期并不總是可靠的。模型創(chuàng)建者報(bào)告這些日期主要是為了告知用戶什么時(shí)候之后的信息可能不可靠,而不是為了建立測(cè)試/訓(xùn)練分離。因此,知識(shí)截止日期不應(yīng)被視為保證模型沒有該日期之后信息的硬性標(biāo)準(zhǔn)。

研究團(tuán)隊(duì)發(fā)現(xiàn),通過適當(dāng)?shù)奶崾?,即使是聲稱知識(shí)截止日期為2023年10月的GPT-4o模型也能被誘導(dǎo)出關(guān)于2023年11月15日發(fā)生的拜登-習(xí)近平會(huì)晤的信息,而這次會(huì)晤直到2023年11月8日才被宣布。

此外,即使模型的主要訓(xùn)練截止日期是準(zhǔn)確的,系統(tǒng)提示詞和其他模型搭建也可能泄露信息。例如,Anthropic的Claude.AI(聲稱知識(shí)截止日期為2024年11月,不使用搜索功能)的系統(tǒng)提示詞據(jù)報(bào)道包含"唐納德·特朗普是美國現(xiàn)任總統(tǒng),于2025年1月20日就職"等片段。

二、難以將評(píng)估結(jié)果外推到實(shí)際預(yù)測(cè)能力

即使我們解決了評(píng)估結(jié)果可信度的問題,從基準(zhǔn)測(cè)試的表現(xiàn)外推到實(shí)際預(yù)測(cè)能力仍然面臨著額外的挑戰(zhàn)。

### 依賴人類預(yù)測(cè)結(jié)果

許多預(yù)測(cè)數(shù)據(jù)集來源于人類預(yù)測(cè)平臺(tái)。這意味著,人類的預(yù)測(cè)結(jié)果很可能已經(jīng)通過訓(xùn)練數(shù)據(jù)或檢索系統(tǒng)提供給了語言模型。當(dāng)研究者聲稱語言模型"達(dá)到人類水平"時(shí),這個(gè)結(jié)論可能是循環(huán)論證:模型可能只是復(fù)制了人類預(yù)測(cè),而不是展示獨(dú)立的預(yù)測(cè)能力。

這就像一個(gè)學(xué)生在考試前偷看了答案,然后聲稱自己解題能力超強(qiáng)一樣。如果語言模型能夠訪問人類預(yù)測(cè)者已經(jīng)做出的判斷,那么比較模型與人類的表現(xiàn)就失去了意義。

### 通過下注策略游戲基準(zhǔn)測(cè)試

與許多AI任務(wù)不同,預(yù)測(cè)基準(zhǔn)測(cè)試可能會(huì)獎(jiǎng)勵(lì)策略性投機(jī)而非準(zhǔn)確的不確定性估計(jì)。

想象一個(gè)情景:你在2023年預(yù)測(cè)2025年美國政治事件,假設(shè)對(duì)總統(tǒng)大選有50/50的先驗(yàn)概率。從基準(zhǔn)測(cè)試優(yōu)化角度來看,最佳策略可能是堅(jiān)定地押注一個(gè)結(jié)果,并在這個(gè)假設(shè)下做出所有預(yù)測(cè)。如果押對(duì)了,你的表現(xiàn)會(huì)非常出色;如果押錯(cuò)了,完全失敗。但這種策略有更高的機(jī)會(huì)在基準(zhǔn)測(cè)試中獲得好成績,比起一個(gè)更加謹(jǐn)慎、更符合校準(zhǔn)的策略。

這種現(xiàn)象在人類預(yù)測(cè)比賽中也存在。2022年一個(gè)預(yù)測(cè)比賽的獲勝者說:"我試圖有意識(shí)地構(gòu)建我的答案,以最大化我獲勝的概率,而不是最大化每個(gè)單獨(dú)答案正確的概率。"

這就像彩票游戲:你可以購買很多不同號(hào)碼的彩票,獲得穩(wěn)定但很小的期望回報(bào);或者你可以把所有錢都押在一個(gè)號(hào)碼上,大部分情況下你會(huì)輸,但萬一中獎(jiǎng),回報(bào)會(huì)非常高。在預(yù)測(cè)基準(zhǔn)測(cè)試中,極端策略可能會(huì)被過度獎(jiǎng)勵(lì)。

### 數(shù)據(jù)分布偏差

預(yù)測(cè)平臺(tái)上的問題往往集中在競爭性預(yù)測(cè)者感興趣的話題上,這可能導(dǎo)致數(shù)據(jù)分布偏差。當(dāng)為回測(cè)篩選基準(zhǔn)測(cè)試時(shí),這些偏差可能會(huì)因?yàn)槟男﹩栴}可以在評(píng)估時(shí)間范圍內(nèi)解決的限制而進(jìn)一步加劇。

雖然數(shù)據(jù)偏差在許多機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中都存在(例如,ImageNet對(duì)狗品種的關(guān)注仍然產(chǎn)生可遷移的視覺特征),但幾乎沒有證據(jù)表明在當(dāng)前預(yù)測(cè)基準(zhǔn)測(cè)試上的表現(xiàn)能產(chǎn)生可泛化的預(yù)測(cè)能力。

不同的預(yù)測(cè)市場(chǎng)平臺(tái)有不同的用戶群體和興趣焦點(diǎn)。例如,Polymarket不成比例地關(guān)注加密貨幣價(jià)格變動(dòng)和體育結(jié)果,而Manifold包含大量個(gè)人問題,如"我今天會(huì)去健身房嗎?"。更廣泛地說,這些市場(chǎng)往往過度代表美國中心的政治、經(jīng)濟(jì)和體育事件。

### 評(píng)估指標(biāo)的反直覺性

評(píng)估預(yù)測(cè)者通常使用的指標(biāo)包括Brier分?jǐn)?shù)、對(duì)數(shù)分?jǐn)?shù)、準(zhǔn)確率和校準(zhǔn)度。然而,這些指標(biāo)可能會(huì)導(dǎo)致意外的激勵(lì)。

例如,在先驗(yàn)概率低的問題數(shù)據(jù)集上,簡單預(yù)測(cè)基礎(chǔ)比率可能會(huì)獲得比實(shí)際嘗試預(yù)測(cè)正確模型更好的校準(zhǔn)度。想象一個(gè)有100位紅衣主教的例子,只有一位會(huì)成為教皇,數(shù)據(jù)集包含100個(gè)問題,問"X紅衣主教會(huì)成為教皇嗎?"。一個(gè)簡單預(yù)測(cè)每位紅衣主教都有1%機(jī)會(huì)成為教皇的預(yù)測(cè)者在這個(gè)小數(shù)據(jù)集上會(huì)有完美的校準(zhǔn)度。相比之下,一個(gè)更有辨別力的預(yù)測(cè)者,可能會(huì)給5位可能的"熱門候選人"(包括最終的教皇?。└?0%的概率,給其余95位紅衣主教各約0.5%的概率,這個(gè)預(yù)測(cè)者的校準(zhǔn)度反而會(huì)更差,盡管他的預(yù)測(cè)顯然更有用!

同樣,在基礎(chǔ)比率不同的問題混合的情況下,Brier分?jǐn)?shù)可能會(huì)過度強(qiáng)調(diào)對(duì)基礎(chǔ)比率接近50%的問題的表現(xiàn),而忽視對(duì)罕見事件的預(yù)測(cè)能力。

三、優(yōu)化更好預(yù)測(cè)者面臨的挑戰(zhàn)

目前表現(xiàn)最好的語言模型預(yù)測(cè)者主要利用現(xiàn)有模型的知識(shí)和推理能力,而沒有經(jīng)過專門的預(yù)測(cè)優(yōu)化。隨著該領(lǐng)域的發(fā)展,自然而然的下一步是專門優(yōu)化模型以提高預(yù)測(cè)性能。

然而,數(shù)據(jù)中的時(shí)間相關(guān)性使這種優(yōu)化變得困難。簡單地在一段時(shí)間內(nèi)的問題-答案對(duì)上訓(xùn)練會(huì)創(chuàng)造時(shí)間泄漏,因?yàn)橛?xùn)練中的早期樣本可能會(huì)泄露與后期樣本相關(guān)的信息(例如,"誰會(huì)贏得選舉?"后面跟著"誰會(huì)贏得初選?")。

即使按時(shí)間順序排序訓(xùn)練樣本,仍然無法正確模擬預(yù)測(cè)更遠(yuǎn)未來事件的任務(wù)。這就像是訓(xùn)練一個(gè)預(yù)測(cè)系統(tǒng),告訴它今天是1月1日,然后讓它預(yù)測(cè)1月2日、1月3日...的事件,最后評(píng)估它對(duì)12月31日的預(yù)測(cè)能力。這顯然與實(shí)際使用場(chǎng)景不符,因?yàn)樵趯?shí)際應(yīng)用中,我們希望系統(tǒng)能夠預(yù)測(cè)遠(yuǎn)期事件,而不僅僅是近期事件。

四、討論與結(jié)論

公共基準(zhǔn)測(cè)試的主要目的是為用戶對(duì)模型進(jìn)行排名。由于絕對(duì)分?jǐn)?shù)難以解釋(取決于數(shù)據(jù)分布),一些我們強(qiáng)調(diào)的問題,如回測(cè)問題可以被輕易回答(第2.1節(jié)),可能不會(huì)影響相對(duì)比較。然而,不同系統(tǒng)利用基準(zhǔn)測(cè)試缺陷的程度可能不同,因此排名仍然可能受到影響。

我們并沒有證據(jù)證明我們發(fā)現(xiàn)的基準(zhǔn)測(cè)試問題會(huì)降低語言模型預(yù)測(cè)者的性能聲明。但我們認(rèn)為,由于語言模型預(yù)測(cè)者可能通過各種捷徑利用了評(píng)估方法,因此很難信任這些評(píng)估。這種利用不一定是對(duì)抗性的,它可能是嘗試提高基準(zhǔn)測(cè)試性能的無意結(jié)果。

隨著對(duì)這些問題更加了解,更好的預(yù)測(cè)評(píng)估方法是可能的,而且已經(jīng)有所進(jìn)展。例如,與其他嘗試相比,F(xiàn)orecastBench顯示出更少的明顯時(shí)間和邏輯泄漏問題。我們建議未來的評(píng)估遵循本文中提出的建議,并收集有關(guān)盡可能近期事件的問題。金融交易文獻(xiàn)中也有很多相關(guān)經(jīng)驗(yàn)可以借鑒,這些領(lǐng)域在過去幾十年中發(fā)現(xiàn)并緩解了類似問題。

理想情況下,應(yīng)該在預(yù)測(cè)市場(chǎng)上進(jìn)行實(shí)時(shí)評(píng)估,目標(biāo)是盈利,并詳細(xì)報(bào)告不同主題和預(yù)測(cè)時(shí)間范圍的表現(xiàn)。

總結(jié)來說,我們分析了評(píng)估語言模型預(yù)測(cè)未來事件能力時(shí)出現(xiàn)的獨(dú)特問題。通過一系列具體例子,我們認(rèn)為現(xiàn)有的數(shù)據(jù)收集和評(píng)估實(shí)踐可能會(huì)產(chǎn)生誤導(dǎo)性結(jié)果,無論是由于簡化預(yù)測(cè)任務(wù)的捷徑,還是對(duì)語言模型預(yù)測(cè)者的一般能力產(chǎn)生疑問的數(shù)據(jù)偏差。我們希望本文提供的潛在對(duì)策能夠指導(dǎo)設(shè)計(jì)更有原則的語言模型預(yù)測(cè)者評(píng)估方法。

我們就像是在評(píng)估一個(gè)聲稱能預(yù)測(cè)天氣的系統(tǒng)。如果你說"我的系統(tǒng)能準(zhǔn)確預(yù)測(cè)明天會(huì)下雨",但你在測(cè)試時(shí)只選擇了那些天氣預(yù)報(bào)已經(jīng)說會(huì)下雨的日子,那么你的系統(tǒng)可能并沒有真正的預(yù)測(cè)能力。同樣,評(píng)估語言模型的預(yù)測(cè)能力時(shí),我們需要確保它們真的在預(yù)測(cè)未來,而不是以某種方式訪問或推斷已經(jīng)發(fā)生的事件的信息。

如果你對(duì)這項(xiàng)研究感興趣,可以通過arXiv:2506.00723v1查閱完整論文,深入了解評(píng)估語言模型預(yù)測(cè)能力的挑戰(zhàn)和可能的解決方案。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-