這項(xiàng)由谷歌DeepMind的盧卡斯·哈斯博士領(lǐng)導(dǎo)、聯(lián)合谷歌研究院共同完成的研究于2025年9月發(fā)表,論文題為"SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge"。有興趣深入了解的讀者可以通過(guò)arXiv:2509.07968v1訪問(wèn)完整論文,相關(guān)數(shù)據(jù)集和評(píng)估代碼已在Kaggle平臺(tái)公開發(fā)布。
當(dāng)我們和ChatGPT、Claude這樣的AI助手聊天時(shí),你是否曾經(jīng)懷疑過(guò)它們說(shuō)的某些"事實(shí)"可能是編造的?比如當(dāng)你問(wèn)一個(gè)冷門歷史人物的生日,或者某個(gè)小眾電影的導(dǎo)演是誰(shuí),AI可能會(huì)非常自信地告訴你一個(gè)聽(tīng)起來(lái)很合理但實(shí)際上完全錯(cuò)誤的答案。這就是AI研究界頭疼的"幻覺(jué)"問(wèn)題——AI模型會(huì)編造出看似真實(shí)的虛假信息。
為了檢測(cè)AI模型到底有多容易"胡編亂造",科學(xué)家們就像給學(xué)生出考試題一樣,設(shè)計(jì)各種基準(zhǔn)測(cè)試來(lái)評(píng)估AI的事實(shí)準(zhǔn)確性。然而,現(xiàn)有的這些"考試"存在很多問(wèn)題,就像一份出題不嚴(yán)謹(jǐn)?shù)目季?mdash;—有些題目重復(fù),有些答案錯(cuò)誤,有些題目偏向某些特定領(lǐng)域,導(dǎo)致無(wú)法真正反映AI的實(shí)際水平。
谷歌DeepMind的研究團(tuán)隊(duì)就像嚴(yán)格的教務(wù)處,發(fā)現(xiàn)了目前最流行的AI事實(shí)性測(cè)試工具SimpleQA存在諸多缺陷后,決定重新制作一份更加可靠和公平的"標(biāo)準(zhǔn)化考試"。他們的新版本叫做SimpleQA Verified,就像是經(jīng)過(guò)多輪校對(duì)和優(yōu)化的高考試卷,能夠更準(zhǔn)確地測(cè)試AI模型是否真的掌握了可靠的知識(shí)。
經(jīng)過(guò)這個(gè)新標(biāo)準(zhǔn)的檢驗(yàn),谷歌自家的Gemini 2.5 Pro模型表現(xiàn)最佳,就像班級(jí)里的學(xué)霸,在這場(chǎng)"誠(chéng)實(shí)度測(cè)試"中獲得了55.6%的綜合分?jǐn)?shù),超越了包括最新版GPT-5在內(nèi)的其他頂級(jí)AI模型。這個(gè)分?jǐn)?shù)意味著什么呢?簡(jiǎn)單來(lái)說(shuō),即使是目前最先進(jìn)的AI,在回答事實(shí)性問(wèn)題時(shí)也只有一半多一點(diǎn)的準(zhǔn)確率,還有很大的提升空間。
一、現(xiàn)有AI事實(shí)性測(cè)試的"考試作弊"問(wèn)題
當(dāng)我們想要了解一個(gè)學(xué)生的真實(shí)學(xué)習(xí)水平時(shí),最好的方法是給他出一份公平、全面的考試。同樣道理,要評(píng)估AI模型的事實(shí)準(zhǔn)確性,我們也需要一套標(biāo)準(zhǔn)化的測(cè)試題庫(kù)。在AI研究領(lǐng)域,這種測(cè)試工具被稱為"基準(zhǔn)",就像是標(biāo)準(zhǔn)化考試中的試卷。
早期的AI事實(shí)性測(cè)試工具,比如TriviaQA、Natural Questions和TruthfulQA,就像是多年前的高考題目。雖然在當(dāng)時(shí)很有用,但隨著AI技術(shù)的快速發(fā)展,這些"老題目"已經(jīng)變得太簡(jiǎn)單了,現(xiàn)在的AI模型都能輕松答對(duì),就像讓大學(xué)生做小學(xué)算術(shù)題一樣,無(wú)法真正區(qū)分出不同模型的實(shí)際能力差異。
為了解決這個(gè)問(wèn)題,OpenAI在2024年底發(fā)布了SimpleQA,這是一個(gè)專門設(shè)計(jì)來(lái)挑戰(zhàn)AI模型的高難度事實(shí)性測(cè)試。SimpleQA就像是專門為尖子生設(shè)計(jì)的競(jìng)賽題目,里面都是一些相對(duì)冷門、需要精確記憶的知識(shí)點(diǎn),比如"1949年2月16日到5月27日期間阿薩姆邦的總督是誰(shuí)?"這類問(wèn)題。
SimpleQA確實(shí)比之前的測(cè)試更有挑戰(zhàn)性,很快成為了AI行業(yè)的標(biāo)準(zhǔn)評(píng)估工具。然而,谷歌研究團(tuán)隊(duì)在深入分析后發(fā)現(xiàn),這個(gè)看似嚴(yán)格的"考試"實(shí)際上存在很多問(wèn)題,就像一份出題不夠嚴(yán)謹(jǐn)?shù)脑嚲怼?/p>
最主要的問(wèn)題是"出題老師"——也就是負(fù)責(zé)編寫問(wèn)題的人類評(píng)估員——存在明顯的偏好傾向。就像某個(gè)老師特別喜歡出歷史題而不出數(shù)學(xué)題,SimpleQA的題目分布很不均勻。研究團(tuán)隊(duì)發(fā)現(xiàn),32.8%的問(wèn)題都要求回答日期,24.1%的問(wèn)題要求回答人名,而在主題分布上,科學(xué)技術(shù)類問(wèn)題占了過(guò)多比重。
更嚴(yán)重的是,同一個(gè)評(píng)估員似乎會(huì)重復(fù)出類似的題目。舉個(gè)例子,整個(gè)數(shù)據(jù)集中居然有119道題(占總數(shù)的2.7%)都在問(wèn)哥倫比亞不同市鎮(zhèn)的建立日期,比如"博亞卡省蒂帕科克市是什么時(shí)候建立的?""博亞卡省莫塔維塔市是哪一年建立的?"這就像考試中出現(xiàn)了大量近似重復(fù)的題目,降低了測(cè)試的有效性。
除了題目重復(fù)和分布不均,SimpleQA還存在一個(gè)更根本的問(wèn)題:答案錯(cuò)誤。研究團(tuán)隊(duì)發(fā)現(xiàn),有些題目的"標(biāo)準(zhǔn)答案"本身就是錯(cuò)誤的,或者不同來(lái)源給出了相互矛盾的答案。這就像考試試卷上的參考答案印錯(cuò)了,學(xué)生答對(duì)了反而被判錯(cuò)分。
還有一個(gè)技術(shù)性問(wèn)題是題目來(lái)源受限。SimpleQA中的許多問(wèn)題來(lái)源于那些限制AI訓(xùn)練使用的網(wǎng)站,這意味著AI模型在訓(xùn)練時(shí)可能從未接觸過(guò)這些信息,這樣的測(cè)試更像是考察AI能否"猜對(duì)"從未學(xué)過(guò)的內(nèi)容,而不是真正評(píng)估其知識(shí)儲(chǔ)備。
二、打造史上最嚴(yán)格的AI"誠(chéng)實(shí)度考試"
面對(duì)SimpleQA存在的種種問(wèn)題,谷歌研究團(tuán)隊(duì)決定親自動(dòng)手,制作一份真正可靠的AI事實(shí)性測(cè)試工具。這個(gè)過(guò)程就像重新編寫一套標(biāo)準(zhǔn)化考試試卷,需要經(jīng)過(guò)多輪嚴(yán)格的審查、篩選和驗(yàn)證。
整個(gè)制作過(guò)程可以比作精工細(xì)作的手工藝品制造。研究團(tuán)隊(duì)從原始的4326道SimpleQA題目開始,經(jīng)過(guò)層層篩選,最終精選出1000道最具代表性和挑戰(zhàn)性的題目。這個(gè)過(guò)程就像從海量的原材料中,仔細(xì)挑選出最優(yōu)質(zhì)的材料,再經(jīng)過(guò)精心加工制作成精品。
第一步是確保題目來(lái)源的多樣性。研究團(tuán)隊(duì)發(fā)現(xiàn),原版SimpleQA中有很多問(wèn)題都引用相同的網(wǎng)頁(yè)作為信息源,這就像多道考試題都來(lái)自同一本教科書的同一章節(jié)。為了確保測(cè)試的全面性,他們規(guī)定任何兩道題目都不能引用相同的網(wǎng)頁(yè)鏈接。經(jīng)過(guò)這一步篩選,題目數(shù)量從4326道減少到3095道。
第二步是消除重復(fù)和相似的題目。研究團(tuán)隊(duì)使用了兩種方法來(lái)識(shí)別過(guò)于相似的問(wèn)題:一種是基于語(yǔ)義理解的方法,就像讓AI讀懂題目的實(shí)際含義后判斷是否重復(fù);另一種是基于關(guān)鍵詞匹配的方法,專門找出那些用詞幾乎相同的題目。
在語(yǔ)義去重過(guò)程中,團(tuán)隊(duì)使用了Gemini嵌入技術(shù)來(lái)計(jì)算問(wèn)題之間的相似度。當(dāng)兩道題目的相似度超過(guò)0.77這個(gè)閾值時(shí),就被認(rèn)為是過(guò)度相似需要去重。比如前面提到的119道關(guān)于哥倫比亞市鎮(zhèn)建立日期的問(wèn)題,在這個(gè)環(huán)節(jié)中被大量篩除,最終只保留了一道最具代表性的。
在關(guān)鍵詞去重環(huán)節(jié),研究團(tuán)隊(duì)使用了傳統(tǒng)的TF-IDF方法,這種方法專門擅長(zhǎng)發(fā)現(xiàn)那些用詞高度重疊的題目。經(jīng)過(guò)這兩輪去重,題目數(shù)量進(jìn)一步減少到2664道。
第三步是尊重網(wǎng)站發(fā)布者的選擇。許多網(wǎng)站通過(guò)技術(shù)手段明確表示不希望自己的內(nèi)容被用于AI訓(xùn)練。研究團(tuán)隊(duì)尊重這些選擇,刪除了那些引用受限制網(wǎng)站的問(wèn)題。這一步雖然大幅減少了題目數(shù)量(從2664道降至1855道),但確保了測(cè)試的倫理合規(guī)性。
第四步是平衡題目類型和主題分布。就像制作一份綜合性考試需要涵蓋各個(gè)知識(shí)領(lǐng)域,研究團(tuán)隊(duì)重新調(diào)整了題目的分布,確保不同類型的問(wèn)題(如日期類、人物類、地點(diǎn)類、數(shù)字類)和不同主題領(lǐng)域(如藝術(shù)、體育、地理、音樂(lè)等)都有合適的代表性。最終保留了1218道題目。
第五步是核實(shí)答案的準(zhǔn)確性。研究團(tuán)隊(duì)使用多個(gè)搜索增強(qiáng)的AI模型來(lái)驗(yàn)證每道題目的標(biāo)準(zhǔn)答案是否正確。對(duì)于非數(shù)字類答案,他們刪除了那些明顯有歧義或信息源相互矛盾的題目。對(duì)于數(shù)字類答案,他們?cè)O(shè)定了5%的誤差范圍,刪除了所有信息源都指向不同答案的題目。
最后一步是確保足夠的挑戰(zhàn)性。為了讓這個(gè)測(cè)試能夠真正區(qū)分不同AI模型的能力,研究團(tuán)隊(duì)專門選擇了那些連最先進(jìn)的AI模型都難以正確回答的問(wèn)題。他們測(cè)試了GPT-4o、Gemini 2.0 Flash和Claude 3.7 Sonnet這三個(gè)頂級(jí)模型,優(yōu)先保留那些三個(gè)模型都回答錯(cuò)誤的題目。
經(jīng)過(guò)這個(gè)精心制作過(guò)程,最終的SimpleQA Verified包含了1000道經(jīng)過(guò)嚴(yán)格篩選和驗(yàn)證的題目。每道題目都配有詳細(xì)的元數(shù)據(jù)標(biāo)注,包括題目類型、主題分類、是否需要推理能力、是否涉及多步驟思考等信息。
三、開發(fā)更智能的AI答案判定系統(tǒng)
制作高質(zhì)量的測(cè)試題目只是成功的一半,另一半挑戰(zhàn)在于如何準(zhǔn)確判斷AI的回答是否正確。這就像考試中的閱卷工作,需要既嚴(yán)格又公平的評(píng)分標(biāo)準(zhǔn)。
傳統(tǒng)的人工閱卷顯然不適用于大規(guī)模的AI測(cè)試,因此研究團(tuán)隊(duì)開發(fā)了一個(gè)自動(dòng)評(píng)分系統(tǒng),用AI來(lái)給AI的答案打分。這個(gè)評(píng)分AI就像一個(gè)非常有經(jīng)驗(yàn)的閱卷老師,能夠理解答案的語(yǔ)義含義,而不僅僅是進(jìn)行簡(jiǎn)單的文字匹配。
然而,原版SimpleQA的自動(dòng)評(píng)分系統(tǒng)存在一個(gè)關(guān)鍵問(wèn)題:它經(jīng)常在判斷答案正誤時(shí)出現(xiàn)分歧。為了找出問(wèn)題所在,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們讓評(píng)分系統(tǒng)對(duì)同一個(gè)答案反復(fù)打分10次,每次都調(diào)整一些隨機(jī)參數(shù),然后觀察哪些類型的答案最容易導(dǎo)致評(píng)分不一致。
通過(guò)這個(gè)實(shí)驗(yàn),團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)典型的"閱卷難點(diǎn)"。第一種是答案正確但包含額外信息的情況。比如問(wèn)題是"誰(shuí)是1949年阿薩姆邦的總督",標(biāo)準(zhǔn)答案是"斯里·普拉卡薩",但AI可能回答"1949年阿薩姆邦的總督是斯里·普拉卡薩,他從2月16日上任,一直任職到1950年5月27日"。這個(gè)答案核心內(nèi)容正確,但包含了額外的時(shí)間信息,容易讓評(píng)分系統(tǒng)產(chǎn)生混淆。
第二種難點(diǎn)是近似正確的數(shù)字答案。比如問(wèn)題是"天文學(xué)家安妮·坎農(nóng)在1913年每小時(shí)能分類多少顆星星",標(biāo)準(zhǔn)答案是200顆,但AI回答"每分鐘3顆,相當(dāng)于每小時(shí)180顆"。從數(shù)學(xué)角度看,180和200很接近,但原有的評(píng)分系統(tǒng)有時(shí)會(huì)嚴(yán)格按照精確匹配來(lái)判斷。
第三種難點(diǎn)是AI聲稱找不到信息的情況。有時(shí)AI會(huì)說(shuō)"我在數(shù)據(jù)庫(kù)中沒(méi)有找到這個(gè)信息",但實(shí)際上標(biāo)準(zhǔn)答案是存在的。評(píng)分系統(tǒng)需要判斷這種回答應(yīng)該算作"未嘗試回答"還是"回答錯(cuò)誤"。
第四種難點(diǎn)是AI給出模糊或間接拒絕的回答。比如AI可能說(shuō)"雖然劇集沒(méi)有明確說(shuō)明,但暗示這個(gè)角色工作了很長(zhǎng)時(shí)間",當(dāng)標(biāo)準(zhǔn)答案是"7年"時(shí),評(píng)分系統(tǒng)需要判斷這種回答的性質(zhì)。
針對(duì)這些問(wèn)題,研究團(tuán)隊(duì)對(duì)自動(dòng)評(píng)分系統(tǒng)進(jìn)行了全面升級(jí)。最重要的改進(jìn)是對(duì)數(shù)字類答案的處理方式。他們不再要求AI的答案必須與標(biāo)準(zhǔn)答案完全匹配,而是為每個(gè)數(shù)字問(wèn)題設(shè)定了合理的誤差范圍。
具體的誤差設(shè)定遵循了一套科學(xué)的分類標(biāo)準(zhǔn)。對(duì)于小于50的整數(shù)(比如某個(gè)團(tuán)隊(duì)的成員數(shù)量),要求精確匹配,因?yàn)檫@類數(shù)字通常是可以準(zhǔn)確計(jì)數(shù)的。對(duì)于51到10000之間的數(shù)值(比如建筑物的高度、城市人口等),允許大約1%的誤差。對(duì)于超過(guò)10000的大數(shù)字(比如國(guó)家人口、公司營(yíng)收等),允許大約5%的誤差,因?yàn)檫@類數(shù)字本身就存在統(tǒng)計(jì)誤差和時(shí)間變化。
例如,對(duì)于問(wèn)題"2019年有多少聯(lián)合國(guó)志愿者在54個(gè)聯(lián)合國(guó)任務(wù)、機(jī)構(gòu)、基金和項(xiàng)目中服務(wù)",標(biāo)準(zhǔn)答案是8282人,新的評(píng)分系統(tǒng)會(huì)接受8199到8365之間的任何答案作為正確回答。
除了數(shù)字處理的改進(jìn),新評(píng)分系統(tǒng)還加強(qiáng)了對(duì)答案核心內(nèi)容的識(shí)別能力。它被明確指示只關(guān)注直接回答問(wèn)題的部分,忽略額外的背景信息或解釋。這就像閱卷老師被告知要抓住答案的核心要點(diǎn),不要因?yàn)閷W(xué)生寫了過(guò)多解釋而扣分。
系統(tǒng)還改進(jìn)了對(duì)"猶豫式回答"的處理。新規(guī)則規(guī)定,如果AI的回答包含多個(gè)可能答案但最終傾向于其中一個(gè),那就按照那個(gè)傾向性答案來(lái)判分。但如果AI只是列舉多種可能性而不做選擇,就被視為"未嘗試回答"。
四、揭示AI模型真實(shí)的"知識(shí)誠(chéng)信度"
當(dāng)這個(gè)經(jīng)過(guò)精心設(shè)計(jì)的新測(cè)試工具準(zhǔn)備就緒后,研究團(tuán)隊(duì)開始了一場(chǎng)大規(guī)模的AI能力摸底考試。他們邀請(qǐng)了當(dāng)前最先進(jìn)的13個(gè)AI模型參加這場(chǎng)"誠(chéng)實(shí)度測(cè)試",包括谷歌的Gemini系列、OpenAI的GPT系列、Anthropic的Claude系列,以及最新的DeepSeek R1模型。
測(cè)試過(guò)程就像一場(chǎng)標(biāo)準(zhǔn)化考試,所有模型都在相同條件下回答同樣的1000道問(wèn)題,不允許使用搜索工具或外部幫助,純粹依靠其內(nèi)部?jī)?chǔ)存的知識(shí)來(lái)回答。這種設(shè)置確保了測(cè)試的公平性,就像讓所有考生在相同時(shí)間、相同環(huán)境下進(jìn)行閉卷考試。
測(cè)試結(jié)果令人深思。即使是表現(xiàn)最好的Gemini 2.5 Pro,綜合得分也只有55.6%,這意味著即使是目前最先進(jìn)的AI,在面對(duì)事實(shí)性問(wèn)題時(shí)也有接近一半的概率會(huì)給出錯(cuò)誤或無(wú)法回答。這個(gè)分?jǐn)?shù)雖然在所有參測(cè)模型中排名第一,但距離人類期望的高可靠性標(biāo)準(zhǔn)還有相當(dāng)距離。
排在第二位的是OpenAI的GPT-5,得分52.3%,與Gemini 2.5 Pro的差距并不算太大。值得注意的是GPT家族內(nèi)部的表現(xiàn)差異:最新的o3模型得分51.9%,而較早的GPT-4o只有34.9%。這反映出AI技術(shù)的快速迭代確實(shí)在提升模型的事實(shí)準(zhǔn)確性。
Anthropic的Claude系列表現(xiàn)相對(duì)較弱,Opus 4得分28.3%,Sonnet 4得分18.7%。有趣的是,這兩個(gè)模型在"嘗試回答率"上表現(xiàn)出了不同策略:Opus 4只嘗試回答35.5%的問(wèn)題,但在嘗試回答的問(wèn)題中有54.1%答對(duì)了;而Sonnet 4嘗試回答33.9%的問(wèn)題,答對(duì)率為36.9%。這反映出不同模型在面對(duì)不確定性時(shí)采取了不同的保守策略。
從測(cè)試結(jié)果可以看出幾個(gè)重要趨勢(shì)。首先,所有模型在事實(shí)準(zhǔn)確性方面都還有很大提升空間,最好的模型也只是剛剛超過(guò)及格線。其次,不同模型展現(xiàn)出了不同的回答策略:有些模型比較"大膽",愿意嘗試回答更多問(wèn)題但準(zhǔn)確率相對(duì)較低;有些模型比較"謹(jǐn)慎",只在有把握時(shí)才回答但準(zhǔn)確率較高。
研究團(tuán)隊(duì)還分析了模型在不同類型問(wèn)題上的表現(xiàn)差異。在數(shù)字類問(wèn)題上,由于新評(píng)分系統(tǒng)允許合理的誤差范圍,模型的表現(xiàn)普遍有所提升。在人物類問(wèn)題上,模型表現(xiàn)相對(duì)較好,可能因?yàn)槿嗣谟?xùn)練數(shù)據(jù)中出現(xiàn)頻率較高。在日期類問(wèn)題上,模型普遍表現(xiàn)較差,可能反映出AI在處理時(shí)間信息時(shí)的固有困難。
有趣的是,當(dāng)研究團(tuán)隊(duì)對(duì)比新版SimpleQA Verified和原版SimpleQA的測(cè)試結(jié)果時(shí)發(fā)現(xiàn),大多數(shù)模型在兩個(gè)測(cè)試上的得分非常接近。這證明了新測(cè)試工具確實(shí)保持了原有的挑戰(zhàn)性,同時(shí)提供了更可靠的評(píng)估結(jié)果。
這次全面測(cè)試的一個(gè)重要發(fā)現(xiàn)是,即使是最先進(jìn)的AI模型,在沒(méi)有外部工具輔助的情況下,其事實(shí)準(zhǔn)確性仍然有限。當(dāng)為這些模型提供搜索工具時(shí),它們的表現(xiàn)會(huì)顯著提升,接近完美水平。這說(shuō)明問(wèn)題不在于AI缺乏推理能力,而在于其內(nèi)部知識(shí)儲(chǔ)存的完整性和準(zhǔn)確性仍有不足。
五、為AI研究指明新方向的里程碑工作
SimpleQA Verified的發(fā)布不僅僅是一個(gè)新測(cè)試工具的誕生,更像是為整個(gè)AI研究領(lǐng)域樹立了一個(gè)新的質(zhì)量標(biāo)準(zhǔn)。這項(xiàng)工作的意義遠(yuǎn)超出了技術(shù)層面,它為我們理解AI能力的真實(shí)邊界提供了更可靠的測(cè)量工具。
從技術(shù)發(fā)展角度看,這個(gè)新基準(zhǔn)為AI模型的改進(jìn)指明了具體方向?,F(xiàn)有的AI模型在事實(shí)準(zhǔn)確性方面顯然還有很大提升空間,這為研究人員提供了明確的努力目標(biāo)。特別是在處理數(shù)字信息、時(shí)間概念和冷門知識(shí)方面,AI模型還需要顯著改進(jìn)。
更重要的是,SimpleQA Verified建立了一套更科學(xué)、更公正的評(píng)估方法論。在AI研究領(lǐng)域,評(píng)估基準(zhǔn)的質(zhì)量直接影響研究方向和進(jìn)展速度。一個(gè)有偏見(jiàn)或不準(zhǔn)確的基準(zhǔn)可能會(huì)誤導(dǎo)整個(gè)研究社區(qū),就像用一把不準(zhǔn)的尺子去測(cè)量會(huì)導(dǎo)致所有后續(xù)工作出現(xiàn)偏差。新基準(zhǔn)的嚴(yán)格制作過(guò)程為其他研究者提供了寶貴的方法論參考。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究提供了一個(gè)重要提醒:即使是最先進(jìn)的AI助手,在回答事實(shí)性問(wèn)題時(shí)也可能出錯(cuò)。用戶在使用AI獲取重要信息時(shí),仍需要保持適當(dāng)?shù)闹?jǐn)慎態(tài)度,特別是涉及專業(yè)決策或重要事實(shí)時(shí),最好通過(guò)其他渠道進(jìn)行驗(yàn)證。
從行業(yè)競(jìng)爭(zhēng)角度看,這個(gè)新基準(zhǔn)為不同AI公司提供了一個(gè)公平的比較平臺(tái)。Gemini 2.5 Pro在測(cè)試中的領(lǐng)先表現(xiàn)為谷歌在AI競(jìng)賽中加分,但這種領(lǐng)先優(yōu)勢(shì)并不絕對(duì),隨著其他公司模型的不斷改進(jìn),排名隨時(shí)可能發(fā)生變化。
研究團(tuán)隊(duì)的開放策略也值得贊賞。他們不僅發(fā)布了完整的數(shù)據(jù)集和評(píng)估代碼,還在Kaggle平臺(tái)上建立了公開的排行榜。這種開放共享的做法有助于推動(dòng)整個(gè)AI研究社區(qū)的進(jìn)步,讓更多研究者能夠基于統(tǒng)一標(biāo)準(zhǔn)進(jìn)行研究和比較。
這項(xiàng)工作還突出了AI研究中一個(gè)重要但常被忽視的問(wèn)題:評(píng)估工具本身的質(zhì)量。在追求AI模型性能突破的熱潮中,人們往往關(guān)注算法創(chuàng)新和模型架構(gòu)改進(jìn),但忽略了評(píng)估方法的科學(xué)性。SimpleQA Verified的制作過(guò)程提醒我們,可靠的評(píng)估工具是推動(dòng)AI進(jìn)步的基礎(chǔ)設(shè)施,值得投入足夠的時(shí)間和精力來(lái)完善。
對(duì)于AI安全和可信度研究,這個(gè)新基準(zhǔn)也具有重要價(jià)值。事實(shí)準(zhǔn)確性是AI可信度的重要組成部分,一個(gè)經(jīng)常編造信息的AI系統(tǒng)顯然無(wú)法獲得用戶信任。SimpleQA Verified為量化AI的"誠(chéng)實(shí)度"提供了標(biāo)準(zhǔn)工具,有助于推動(dòng)更值得信賴的AI系統(tǒng)開發(fā)。
說(shuō)到底,這項(xiàng)研究就像是給AI行業(yè)提供了一面更清晰的鏡子,讓我們能夠更準(zhǔn)確地看到當(dāng)前AI技術(shù)的真實(shí)水平。雖然結(jié)果顯示即使最先進(jìn)的AI在事實(shí)準(zhǔn)確性方面仍有不足,但這種認(rèn)知本身就是進(jìn)步的開始。只有準(zhǔn)確了解現(xiàn)狀,才能制定合適的改進(jìn)策略。
歸根結(jié)底,SimpleQA Verified代表了AI研究走向成熟的重要標(biāo)志。它不僅為當(dāng)前的AI能力提供了更可靠的評(píng)估,更為未來(lái)的AI發(fā)展設(shè)立了更高的標(biāo)準(zhǔn)。隨著這個(gè)新基準(zhǔn)的普及使用,我們有理由期待AI在事實(shí)準(zhǔn)確性方面會(huì)有更顯著的提升,最終為用戶提供更可靠、更值得信賴的AI助手。
Q&A
Q1:SimpleQA Verified和原來(lái)的SimpleQA有什么區(qū)別?
A:SimpleQA Verified是谷歌研究團(tuán)隊(duì)對(duì)原版SimpleQA的全面改進(jìn)版本。主要區(qū)別包括:題目數(shù)量從4326道精選至1000道,消除了重復(fù)和相似問(wèn)題,平衡了不同主題和答案類型的分布,修正了錯(cuò)誤答案,改進(jìn)了自動(dòng)評(píng)分系統(tǒng)特別是數(shù)字答案的判定標(biāo)準(zhǔn)。新版本提供了更可靠和公正的AI事實(shí)準(zhǔn)確性評(píng)估。
Q2:目前最先進(jìn)的AI模型在事實(shí)準(zhǔn)確性方面表現(xiàn)如何?
A:根據(jù)SimpleQA Verified的測(cè)試結(jié)果,即使是表現(xiàn)最好的AI模型也只有約55%的準(zhǔn)確率。谷歌Gemini 2.5 Pro以55.6%的得分排名第一,GPT-5得分52.3%排名第二。這意味著即使是最先進(jìn)的AI,在回答事實(shí)性問(wèn)題時(shí)也有接近一半的概率會(huì)出錯(cuò)或無(wú)法回答,距離人類期望的高可靠性標(biāo)準(zhǔn)還有相當(dāng)距離。
Q3:普通用戶使用AI助手時(shí)應(yīng)該注意什么?
A:這項(xiàng)研究提醒我們,AI助手在回答事實(shí)性問(wèn)題時(shí)可能出錯(cuò),用戶應(yīng)保持適當(dāng)謹(jǐn)慎。特別是涉及重要決策或?qū)I(yè)信息時(shí),建議通過(guò)其他可靠渠道進(jìn)行驗(yàn)證。AI助手更適合作為信息獲取的起點(diǎn)而非最終答案來(lái)源。當(dāng)AI提供具體數(shù)字、日期或冷門知識(shí)時(shí),用戶需要特別留意其準(zhǔn)確性。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。