這項由中科院計算技術(shù)研究所的許一龍、高金華以及ModelBest公司的龍翔、鄭智共同完成的研究發(fā)表于2025年7月,研究成果以預(yù)印本形式發(fā)布在arXiv平臺上。有興趣深入了解的讀者可以通過arXiv:2507.16725訪問完整論文。
當(dāng)你在搜索引擎里輸入問題時,有沒有想過AI是如何理解你的意圖并找到最準(zhǔn)確答案的?最近,一個由中科院和ModelBest公司組成的研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:現(xiàn)有的AI搜索評估方法就像是用考數(shù)學(xué)競賽的方式來測試學(xué)生的日常算術(shù)能力一樣,完全脫離了實際使用場景。
研究團隊發(fā)現(xiàn),目前的AI搜索系統(tǒng)評估存在三個嚴(yán)重的問題。首先,評估用的問題過于復(fù)雜,就像是用"在1990到1994年間,哪些球隊在有巴西裁判的足球比賽中拿到了四張黃牌"這樣的問題來測試搜索能力,但普通用戶的問題往往更簡單直接,比如"安樂死在不同國家的觀點有什么差異"。其次,評估時提取的"參考答案"就像是從一本厚厚的教科書中隨意撕下幾頁紙片作為標(biāo)準(zhǔn)答案,必然存在遺漏和錯誤。最后,現(xiàn)有評估方法只關(guān)心最終答案的質(zhì)量,完全忽略了AI在搜索過程中的表現(xiàn),就像只看考試成績而不關(guān)心學(xué)生的解題思路一樣。
為了解決這些問題,研究團隊開發(fā)了一個名為RAVine的全新評估框架。這個框架就像是為AI搜索系統(tǒng)量身定制的"真實世界駕考",不僅要測試最終的搜索結(jié)果,還要評估整個搜索過程的表現(xiàn)。
一、真實用戶需求導(dǎo)向的問題設(shè)計
RAVine框架最大的創(chuàng)新在于使用了來自必應(yīng)搜索日志的真實用戶問題。這些問題不是研究者在實驗室里編造出來的復(fù)雜謎題,而是普通人在日常生活中真正會搜索的內(nèi)容。研究團隊選擇了來自TREC 2024 RAG Track的84個問題作為測試集,這些問題都經(jīng)過人工篩選,能夠反映真實的網(wǎng)絡(luò)搜索行為。
這種方法就像是用真實的城市道路來測試自動駕駛汽車,而不是在封閉的測試場地里進行。用戶的搜索問題往往具有多面性,需要整合多個信息源才能給出全面的答案。比如,當(dāng)有人搜索"越南戰(zhàn)爭對1968年美國經(jīng)濟的影響"時,他們期望得到的不是一個簡單的數(shù)字,而是一份涵蓋軍事開支、通脹率、就業(yè)影響等多個方面的詳細報告。
研究團隊還發(fā)現(xiàn),真實用戶的搜索意圖往往沒有明確的約束條件,這與傳統(tǒng)評估中那些條件苛刻的復(fù)雜問題形成了鮮明對比。普通人的搜索更像是在尋求一個話題的全面了解,而不是要找到一個特定的事實或數(shù)字。
二、基于信息塊的精準(zhǔn)評估方法
傳統(tǒng)的評估方法在提取"參考答案"時就像是讓一個近視眼的人在昏暗的燈光下整理圖書館,結(jié)果可想而知。RAVine框架采用了一種全新的"信息塊"提取方法,就像是配備了高倍放大鏡的專業(yè)圖書管理員,能夠準(zhǔn)確識別和整理每一條有用的信息。
這個方法的核心是將長篇的網(wǎng)頁文檔分解成更小的段落,然后從相關(guān)段落中提取出獨立的信息點,研究團隊稱之為"nuggets"(信息塊)。這個過程就像是把一本厚厚的百科全書按主題分解成一張張知識卡片,每張卡片都包含一個完整、獨立的知識點。
更重要的是,RAVine能夠追蹤每個信息塊的來源。這就像是給每張知識卡片都貼上了標(biāo)簽,標(biāo)明它來自哪本書的哪一頁。這種"可追溯性"讓評估變得更加準(zhǔn)確和可靠。當(dāng)AI生成答案時,系統(tǒng)不僅能判斷答案是否正確,還能檢查AI是否正確引用了信息來源。
研究團隊還開發(fā)了一種動態(tài)聚類算法來合并相似的信息塊。這個過程就像是把內(nèi)容相近的知識卡片歸類整理,避免重復(fù)計算相同的信息點。通過這種方法,每個搜索問題的信息塊數(shù)量能夠根據(jù)實際內(nèi)容自動調(diào)整,而不是人為設(shè)定一個固定的數(shù)量限制。
三、全流程的搜索行為評估
RAVine框架最獨特的地方在于它不僅評估AI的最終答案,還像一個貼身教練一樣,全程觀察AI的搜索行為。這就像是在駕駛考試中,不僅要看學(xué)員是否最終到達了目的地,還要評估他們在路上的表現(xiàn):是否遵守交通規(guī)則、轉(zhuǎn)向是否及時、停車是否平穩(wěn)等等。
在搜索過程評估方面,RAVine關(guān)注AI如何使用搜索工具。AI搜索系統(tǒng)通常有兩種基本工具:搜索工具(用于找到相關(guān)網(wǎng)頁)和獲取工具(用于讀取特定網(wǎng)頁的內(nèi)容)。系統(tǒng)會評估AI是否正確選擇了工具、參數(shù)設(shè)置是否合理、以及是否出現(xiàn)了操作錯誤。
搜索效果的評估更像是在測試一個圖書管理員的工作能力。系統(tǒng)會檢查AI在每次搜索中找到了多少相關(guān)信息,這些信息是否真的有用,以及AI是否避免了重復(fù)搜索相同的內(nèi)容。研究團隊設(shè)計了"搜索增益"這個指標(biāo),用來衡量每次搜索操作帶來的新信息量。這就像是評估每次外出采購是否都買到了真正需要的東西,而不是重復(fù)購買已有的物品。
效率評估則關(guān)注AI完成任務(wù)所需的時間和成本。這包括總的響應(yīng)時間、模型推理的計算成本,以及調(diào)用搜索工具的費用。在實際應(yīng)用中,一個搜索系統(tǒng)即使能給出完美答案,如果耗時太長或成本太高,也難以投入實用。
四、靜態(tài)網(wǎng)絡(luò)環(huán)境的構(gòu)建
為了確保評估結(jié)果的一致性和可重復(fù)性,RAVine框架構(gòu)建了一個靜態(tài)的網(wǎng)絡(luò)環(huán)境。這就像是為駕駛考試建立了一個標(biāo)準(zhǔn)化的考場,確保每個考生都在相同的條件下接受測試。
研究團隊選擇了MS MARCO V2.1數(shù)據(jù)集作為模擬網(wǎng)絡(luò)環(huán)境的基礎(chǔ)。這個數(shù)據(jù)集包含了超過1000萬個網(wǎng)頁文檔,涵蓋了各種不同的主題和領(lǐng)域,就像是一個縮小版的真實互聯(lián)網(wǎng)。這些網(wǎng)頁都包含了完整的元數(shù)據(jù)信息,如URL、標(biāo)題、標(biāo)簽等,為構(gòu)建標(biāo)準(zhǔn)化的搜索工具提供了基礎(chǔ)。
靜態(tài)環(huán)境的最大優(yōu)勢是能夠建立穩(wěn)定的評估基準(zhǔn)。在真實的互聯(lián)網(wǎng)環(huán)境中,網(wǎng)頁內(nèi)容在不斷變化,今天能找到的信息明天可能就消失了,這讓長期的性能比較變得困難。靜態(tài)環(huán)境就像是一個永遠不會變化的圖書館,研究者可以在任何時候回到相同的起點進行測試。
為了選擇最適合的搜索技術(shù),研究團隊測試了多種不同的索引方法,最終選擇了gte-modernbert-base作為密集檢索的基礎(chǔ)模型,同時也構(gòu)建了傳統(tǒng)的BM25索引作為對比。這種多元化的技術(shù)選擇就像是為不同類型的搜索需求準(zhǔn)備了不同的工具。
五、分塊式答案質(zhì)量評估
RAVine在評估AI生成答案的質(zhì)量時采用了一種精巧的分塊方法。傳統(tǒng)的評估要么以整篇文章為單位(太寬泛),要么以單個句子為單位(太細碎),而RAVine選擇了一個恰到好處的中間層次。
這個方法將AI生成的長篇答案按照引用邊界進行分割。每當(dāng)AI在答案中插入一個引用標(biāo)記時,就形成了一個評估塊。這樣做的好處是每個塊都對應(yīng)著特定的信息來源,使得評估更加精確。就像是把一篇文章按照腳注進行分段,每一段都能追溯到具體的資料來源。
對于每個評估塊,系統(tǒng)會檢查兩個關(guān)鍵方面:完整性和準(zhǔn)確性。完整性是指這個塊是否涵蓋了應(yīng)該包含的信息點,準(zhǔn)確性則是指這個塊的內(nèi)容是否與引用的資料來源一致。這就像是在檢查一個學(xué)生的作業(yè),不僅要看他是否答對了問題,還要看他是否正確引用了教科書的內(nèi)容。
研究團隊還設(shè)計了一個加權(quán)評分系統(tǒng),將信息塊分為"重要"和"有用"兩個等級。重要信息塊是回答問題時必不可少的內(nèi)容,而有用信息塊則是能夠豐富答案但不是必需的補充信息。這種分級就像是在評分時給核心要點更高的權(quán)重,而給錦上添花的內(nèi)容較低的權(quán)重。
六、實驗結(jié)果與關(guān)鍵發(fā)現(xiàn)
研究團隊使用RAVine框架對多個主流AI模型進行了全面測試,包括不同規(guī)模的Qwen系列模型和LLaMA模型。測試結(jié)果就像是給這些AI系統(tǒng)進行了一次全面的體檢,揭示了許多以前被忽視的問題。
最令人驚訝的發(fā)現(xiàn)是,目前的AI搜索系統(tǒng)在任務(wù)完整性方面表現(xiàn)并不理想。即使是表現(xiàn)最好的模型,也只能覆蓋到應(yīng)該包含信息的一半左右。這就像是一個圖書管理員在幫你查找資料時,經(jīng)常會遺漏重要的參考書籍。更糟糕的是,AI在引用準(zhǔn)確性方面的表現(xiàn)更加令人擔(dān)憂,大多數(shù)模型的引用準(zhǔn)確率都低于15%。
另一個重要發(fā)現(xiàn)是搜索過程與最終結(jié)果質(zhì)量之間缺乏明顯的相關(guān)性。研究團隊原本預(yù)期,搜索做得好的AI應(yīng)該能生成更高質(zhì)量的答案,但實際情況并非如此。這就像是一個廚師買到了很好的食材,但最終做出來的菜品質(zhì)量卻不盡如人意。
最值得關(guān)注的是,研究發(fā)現(xiàn)許多AI模型過度依賴內(nèi)部知識來生成答案,而不是基于搜索到的外部信息。在某些模型的答案中,超過50%的內(nèi)容實際上來自模型的訓(xùn)練數(shù)據(jù),而不是搜索過程中獲得的新信息。這種現(xiàn)象就像是學(xué)生在開卷考試中不看參考書,而是憑記憶作答一樣,雖然答案可能正確,但失去了搜索系統(tǒng)應(yīng)有的實時性和可驗證性。
思維模式對AI搜索性能有顯著影響。支持"思考模式"的模型在任務(wù)完成率和答案質(zhì)量方面都明顯優(yōu)于不支持的版本。這就像是給AI裝上了一個"內(nèi)心獨白"系統(tǒng),讓它能夠更好地規(guī)劃搜索策略和整理信息。
七、技術(shù)架構(gòu)與創(chuàng)新點
RAVine框架的技術(shù)架構(gòu)就像是一個精密的工廠生產(chǎn)線,每個環(huán)節(jié)都經(jīng)過了精心設(shè)計。整個系統(tǒng)分為三個主要模塊:網(wǎng)絡(luò)環(huán)境模擬、AI搜索建模,以及多維度評估。
網(wǎng)絡(luò)環(huán)境模擬模塊就像是搭建了一個標(biāo)準(zhǔn)化的"實驗室版互聯(lián)網(wǎng)"。這個模塊不僅包含了大量的網(wǎng)頁內(nèi)容,還提供了標(biāo)準(zhǔn)化的搜索和獲取工具。AI系統(tǒng)可以通過這些工具與模擬環(huán)境進行交互,就像在真實網(wǎng)絡(luò)環(huán)境中一樣進行搜索和瀏覽。
AI搜索建模部分定義了一個標(biāo)準(zhǔn)的搜索智能體架構(gòu)。這個架構(gòu)將AI的搜索行為抽象為一個迭代過程:思考、選擇工具、執(zhí)行操作、處理結(jié)果、然后進入下一輪循環(huán)。這種建模方式就像是給AI制定了一套標(biāo)準(zhǔn)的"搜索工作流程",確保不同的AI系統(tǒng)都能在相同的框架下進行比較。
評估模塊是RAVine的核心創(chuàng)新所在。它不像傳統(tǒng)方法那樣只關(guān)注最終結(jié)果,而是對整個搜索過程進行全方位監(jiān)控。這個模塊就像是一個全能的考官,既要評判答案的質(zhì)量,又要觀察解題的過程,還要考慮解題的效率。
在信息塊提取技術(shù)方面,RAVine采用了基于語義聚類的動態(tài)合并算法。這個算法能夠自動識別相似的信息點并進行合并,避免了人工設(shè)定固定數(shù)量限制帶來的問題。這就像是有了一個智能的文件管理系統(tǒng),能夠自動整理和歸類相關(guān)的信息。
八、實際應(yīng)用價值與局限性
RAVine框架的實際應(yīng)用價值遠遠超出了學(xué)術(shù)研究的范疇。對于AI搜索系統(tǒng)的開發(fā)者來說,這個框架就像是一個全面的診斷工具,能夠幫助他們識別系統(tǒng)的薄弱環(huán)節(jié)并進行針對性改進。
在產(chǎn)品開發(fā)方面,RAVine能夠幫助企業(yè)更好地評估不同AI模型的實用性。傳統(tǒng)的評估方法可能顯示某個模型在學(xué)術(shù)測試中表現(xiàn)優(yōu)異,但RAVine能夠揭示這個模型在真實用戶場景下的實際表現(xiàn)如何。這種評估就像是從實驗室測試轉(zhuǎn)向了實際路測,更能反映產(chǎn)品在市場中的真實競爭力。
對于用戶體驗的改善,RAVine提供了寶貴的洞察。通過分析AI的搜索行為和答案生成過程,開發(fā)者可以了解用戶在什么情況下能夠獲得滿意的搜索結(jié)果,什么情況下會遇到問題。這些信息對于優(yōu)化搜索算法和改進用戶界面都具有重要價值。
然而,RAVine框架也存在一些局限性。首先,靜態(tài)網(wǎng)絡(luò)環(huán)境雖然保證了評估的一致性,但可能無法完全反映真實網(wǎng)絡(luò)環(huán)境的復(fù)雜性和動態(tài)性。真實的互聯(lián)網(wǎng)充滿了各種意外情況,如網(wǎng)頁加載失敗、內(nèi)容更新、服務(wù)器錯誤等,這些在靜態(tài)環(huán)境中都無法模擬。
其次,RAVine主要關(guān)注英文內(nèi)容的搜索評估,對于多語言搜索場景的適用性還需要進一步驗證。在全球化的今天,跨語言搜索能力越來越重要,這是未來版本需要重點考慮的方向。
評估成本也是一個需要考慮的因素。雖然RAVine相比傳統(tǒng)方法已經(jīng)大大降低了評估成本,但對于小型研究團隊或初創(chuàng)公司來說,構(gòu)建完整的評估環(huán)境仍然需要相當(dāng)?shù)募夹g(shù)投入和計算資源。
九、未來發(fā)展方向與影響
RAVine框架的出現(xiàn)標(biāo)志著AI搜索評估領(lǐng)域的一個重要轉(zhuǎn)折點。它從根本上改變了我們對AI搜索能力的理解和評估方式,就像是給這個領(lǐng)域裝上了一副新的眼鏡,讓我們能夠看清以前被忽視的細節(jié)。
在技術(shù)發(fā)展方向上,RAVine為AI搜索系統(tǒng)的改進指明了幾個重要方向。首先是提高搜索的精確性和覆蓋面,確保AI能夠找到更多相關(guān)信息而不遺漏重要內(nèi)容。其次是改善引用的準(zhǔn)確性,讓AI生成的答案更加可信和可驗證。最后是平衡搜索深度與效率,在保證答案質(zhì)量的同時控制時間和成本。
對于AI研究社區(qū)來說,RAVine提供了一個標(biāo)準(zhǔn)化的評估平臺,使得不同研究團隊的工作能夠進行公平比較。這就像是為田徑比賽建立了統(tǒng)一的跑道標(biāo)準(zhǔn),讓運動員們能夠在相同的條件下展示實力。
在商業(yè)應(yīng)用方面,RAVine有望推動整個搜索引擎行業(yè)的技術(shù)升級。隨著評估標(biāo)準(zhǔn)的提高,AI搜索系統(tǒng)將被迫在真實用戶體驗方面做出更多改進,而不是僅僅追求在學(xué)術(shù)測試中的高分。
教育和知識獲取方式也可能因此發(fā)生改變。更準(zhǔn)確、更可靠的AI搜索系統(tǒng)將能夠為學(xué)習(xí)者提供更高質(zhì)量的信息,同時確保信息來源的可追溯性。這對于培養(yǎng)批判性思維和信息素養(yǎng)具有重要意義。
從長遠來看,RAVine框架可能會影響整個信息檢索領(lǐng)域的發(fā)展方向。它強調(diào)的真實用戶需求導(dǎo)向、過程性評估和可追溯性等理念,可能會被其他相關(guān)領(lǐng)域所借鑒和采用。
說到底,RAVine框架解決的不僅僅是一個技術(shù)評估問題,它觸及的是在信息爆炸時代如何確保AI系統(tǒng)真正服務(wù)于人類需求的根本問題。通過建立更貼近真實使用場景的評估標(biāo)準(zhǔn),RAVine為構(gòu)建更智能、更可靠的信息檢索系統(tǒng)奠定了基礎(chǔ)。對于普通用戶來說,這意味著未來的搜索體驗將變得更加準(zhǔn)確和可信。對于研究者和開發(fā)者來說,這提供了一個強有力的工具來改進他們的系統(tǒng)。而對于整個社會來說,這有助于在AI時代保持對信息質(zhì)量和來源可靠性的基本要求。如有興趣深入了解這項研究的技術(shù)細節(jié),讀者可以通過arXiv:2507.16725訪問完整的研究論文。
Q&A
Q1:RAVine框架是什么?它和傳統(tǒng)評估方法有什么不同? A:RAVine是一個AI搜索系統(tǒng)評估框架,它的最大不同在于使用真實用戶問題而非人工編造的復(fù)雜問題,評估整個搜索過程而非僅看最終答案,并且能夠追蹤信息來源確保答案的可驗證性。就像從考數(shù)學(xué)競賽改為測試日常計算能力。
Q2:為什么現(xiàn)在的AI搜索系統(tǒng)表現(xiàn)不夠好?主要問題在哪里? A:研究發(fā)現(xiàn)三個主要問題:首先是任務(wù)完整性差,最好的模型也只能覆蓋一半應(yīng)該包含的信息;其次是引用準(zhǔn)確率極低,大多數(shù)模型低于15%;最后是過度依賴內(nèi)部知識而非搜索結(jié)果,有些模型超過50%的答案來自訓(xùn)練數(shù)據(jù)而非實時搜索。
Q3:RAVine框架會不會推動搜索引擎技術(shù)的改進? A:會的。RAVine提供了更貼近真實使用場景的評估標(biāo)準(zhǔn),迫使開發(fā)者關(guān)注用戶實際體驗而非學(xué)術(shù)測試分?jǐn)?shù)。它就像給搜索引擎行業(yè)建立了新的質(zhì)量標(biāo)準(zhǔn),有望推動整個行業(yè)在準(zhǔn)確性、可靠性和用戶體驗方面的技術(shù)升級。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。