av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) DeepResearchGym:一款免費(fèi)、透明且可復(fù)現(xiàn)的深度研究評(píng)估沙盒,讓研究者擺脫商業(yè)搜索API的束縛

DeepResearchGym:一款免費(fèi)、透明且可復(fù)現(xiàn)的深度研究評(píng)估沙盒,讓研究者擺脫商業(yè)搜索API的束縛

2025-06-01 19:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 19:00 ? 科技行者

在人工智能技術(shù)日新月異的今天,深度研究系統(tǒng)正悄然改變著我們獲取信息的方式。這類系統(tǒng)不再只是簡(jiǎn)單地返回排序的搜索結(jié)果,而是能夠根據(jù)復(fù)雜查詢自動(dòng)生成全面且有充分依據(jù)的報(bào)告。然而,這項(xiàng)技術(shù)的發(fā)展面臨著一個(gè)關(guān)鍵瓶頸:大多數(shù)現(xiàn)有框架依賴于動(dòng)態(tài)變化的商業(yè)搜索API,不僅成本高昂,還給研究的透明度和可重復(fù)性帶來(lái)了巨大挑戰(zhàn)。

來(lái)自卡內(nèi)基梅隆大學(xué)、葡萄牙NOVA LINCS和IST and INESC-ID的研究團(tuán)隊(duì)共同開發(fā)了一個(gè)名為DeepResearchGym的開源沙盒,希望解決這個(gè)問題。這項(xiàng)研究由Joao Coelho、Jingjie Ning、Jingyuan He等人共同完成,發(fā)表于2025年5月25日的arXiv預(yù)印本平臺(tái),論文編號(hào)為2505.19253v1。研究團(tuán)隊(duì)還提供了項(xiàng)目代碼和API文檔,感興趣的讀者可以通過https://www.deepresearchgym.ai訪問。

一、深度研究系統(tǒng):復(fù)雜信息整合的未來(lái)趨勢(shì)

想象一下,你想了解"新冠疫苗是否危險(xiǎn)"這個(gè)問題。傳統(tǒng)搜索引擎會(huì)給你一長(zhǎng)串鏈接,你需要自己點(diǎn)擊、閱讀、篩選和整合信息。而深度研究系統(tǒng)則像是給你配備了一位虛擬助手,它會(huì)自動(dòng)瀏覽多個(gè)來(lái)源,提取關(guān)鍵信息,考慮不同觀點(diǎn),最后生成一份全面的分析報(bào)告,甚至還會(huì)告訴你信息來(lái)自哪里,以便你自行驗(yàn)證。

這種新型系統(tǒng)通常被稱為"深度研究系統(tǒng)",它們結(jié)合了迭代檢索、多步推理和生成能力,能夠自主導(dǎo)航和評(píng)估各種信息源,為復(fù)雜問題構(gòu)建有據(jù)可查的報(bào)告。OpenAI和Perplexity等公司已經(jīng)推出了深度研究模式,展示了這類系統(tǒng)在處理需要跨多角度、多領(lǐng)域綜合信息的復(fù)雜問題時(shí)的強(qiáng)大潛力。Google也在向AI驅(qū)動(dòng)的搜索工具轉(zhuǎn)型,Apple則計(jì)劃將OpenAI和Perplexity等服務(wù)集成到Safari瀏覽器中。

然而,這些深度研究系統(tǒng)的研發(fā)和評(píng)估面臨著一個(gè)關(guān)鍵挑戰(zhàn):大多數(shù)現(xiàn)有框架依賴于商業(yè)Web搜索API,這些API雖然方便,但存在三大問題:一是專有性導(dǎo)致檢索過程缺乏透明度;二是持續(xù)演變使得實(shí)驗(yàn)難以復(fù)現(xiàn);三是使用成本高昂。這些問題極大限制了深度研究系統(tǒng)的學(xué)術(shù)研究和創(chuàng)新。

二、DeepResearchGym:開放透明的研究沙盒

為了解決上述問題,研究團(tuán)隊(duì)開發(fā)了DeepResearchGym,這是一個(gè)專為深度研究系統(tǒng)設(shè)計(jì)的開源評(píng)估框架。想象它就像是一個(gè)專業(yè)的健身房,為"信息肌肉"的鍛煉提供了所有必要的設(shè)備和環(huán)境,而且是免費(fèi)開放的。

DeepResearchGym的核心是一個(gè)基于公共網(wǎng)絡(luò)快照的免費(fèi)開源搜索API。這些網(wǎng)絡(luò)快照包含了數(shù)百萬(wàn)文檔,主要來(lái)自ClueWeb22和FineWeb兩個(gè)大規(guī)模網(wǎng)絡(luò)語(yǔ)料庫(kù)。API提供了標(biāo)準(zhǔn)化接口,支持文檔檢索和內(nèi)容訪問,可以輕松集成到長(zhǎng)篇生成管道中。

與依賴不斷變化的商業(yè)服務(wù)不同,DeepResearchGym的搜索基礎(chǔ)設(shè)施設(shè)計(jì)強(qiáng)調(diào)透明性和可重復(fù)性。整個(gè)檢索管道由公開可用的組件構(gòu)成,包括文檔集合、先進(jìn)的嵌入模型和可擴(kuò)展的近似最近鄰搜索索引。這種設(shè)計(jì)允許研究人員審計(jì)系統(tǒng)行為,分析檢索證據(jù)的影響,并在可重復(fù)的搜索條件下重新運(yùn)行深度研究實(shí)驗(yàn),因?yàn)闄z索結(jié)果會(huì)隨時(shí)間保持穩(wěn)定。

想象你正在研究"人工智能的倫理問題"。使用商業(yè)搜索API時(shí),今天得到的結(jié)果可能與明天完全不同,導(dǎo)致最終生成的報(bào)告也各不相同,難以進(jìn)行科學(xué)的比較。而使用DeepResearchGym,你可以確保每次實(shí)驗(yàn)都基于相同的信息基礎(chǔ),就像在實(shí)驗(yàn)室中控制變量一樣,從而實(shí)現(xiàn)真正可重復(fù)的研究。

三、技術(shù)細(xì)節(jié):搜索基礎(chǔ)設(shè)施的構(gòu)建與實(shí)現(xiàn)

DeepResearchGym目前索引了兩個(gè)主要的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集:ClueWeb22-B的英文子集和FineWeb CC-MAIN-2024-51快照。這就像是為研究者提供了兩種不同的"健身器材",各有特點(diǎn)。

ClueWeb22于2022年收集,包含約100億個(gè)網(wǎng)頁(yè)。其中的B類別(ClueWeb22-B)代表網(wǎng)絡(luò)的"超級(jí)頭部",包括最常訪問的頁(yè)面(如Wikipedia、主要新聞媒體和其他頂級(jí)域名),共有約2億個(gè)網(wǎng)頁(yè),其中8700萬(wàn)為英文。這些頁(yè)面基于滿足用戶信息需求的可能性進(jìn)行抽樣,同時(shí)過濾了低質(zhì)量和垃圾頁(yè)面。這個(gè)子集特別適合那些希望在廣泛覆蓋和高精度之間取得平衡的系統(tǒng)。

FineWeb則是從2013年至2024年間的96個(gè)Common Crawl快照中收集的大規(guī)模英文網(wǎng)絡(luò)語(yǔ)料庫(kù),包含約15萬(wàn)億個(gè)經(jīng)過清洗和去重的網(wǎng)絡(luò)數(shù)據(jù)標(biāo)記。研究團(tuán)隊(duì)專注于2024年第51周的最新爬取內(nèi)容,其中包含超過1.8億文檔,比早期數(shù)據(jù)捕捉了更多最新趨勢(shì)。這使得該集合對(duì)需要最新信息的查詢特別有價(jià)值。

DeepResearchGym獨(dú)立索引這些語(yǔ)料庫(kù),為研究者提供靈活的評(píng)估設(shè)置:從高度策劃、穩(wěn)定的分布(ClueWeb22)到更新但可能更嘈雜的環(huán)境(FineWeb)。這就像是在同一家健身房提供了兩種不同的訓(xùn)練環(huán)境,一個(gè)更加精確規(guī)范,另一個(gè)更接近真實(shí)世界的復(fù)雜性。

為了在選定的語(yǔ)料庫(kù)上實(shí)現(xiàn)高效的檢索,研究團(tuán)隊(duì)構(gòu)建了一個(gè)分布式密集檢索后端,結(jié)合了最先進(jìn)的嵌入模型和近似最近鄰搜索。具體來(lái)說(shuō),他們使用了MiniCPM-Embedding-Light模型,這是一個(gè)在2.6億查詢-文檔對(duì)上訓(xùn)練的密集檢索編碼器,能夠生成1024維的文檔表示。該模型利用雙向注意力機(jī)制和加權(quán)平均池化來(lái)捕獲文檔中長(zhǎng)達(dá)8192個(gè)標(biāo)記的長(zhǎng)程依賴關(guān)系。在BEIR基準(zhǔn)測(cè)試上,該模型的零樣本性能達(dá)到55.27的nDCG@10,優(yōu)于其他流行的替代方案。

這些文檔嵌入通過DiskANN進(jìn)行索引,這是一個(gè)基于圖的近似最近鄰框架,針對(duì)十億規(guī)模搜索進(jìn)行了優(yōu)化,具有低延遲和內(nèi)存開銷。為確??蓴U(kuò)展性,每個(gè)語(yǔ)料庫(kù)被分割成獨(dú)立的分片,每個(gè)分片最多包含2500萬(wàn)文檔。在搜索時(shí),系統(tǒng)并行查詢分片,然后合并頂級(jí)排名結(jié)果,實(shí)現(xiàn)了網(wǎng)絡(luò)規(guī)模的高效靈活檢索。

在Researchy Queries測(cè)試集上的評(píng)估顯示,搜索系統(tǒng)展現(xiàn)了強(qiáng)大的檢索效果,近似搜索引入的誤差最小,并且在低延遲下依然保持高質(zhì)量的結(jié)果。這就像是健身房中的設(shè)備不僅質(zhì)量上乘,還能讓你快速高效地完成訓(xùn)練。

四、API設(shè)計(jì):簡(jiǎn)單易用的搜索接口

DeepResearchGym提供了一個(gè)專為支持深度研究系統(tǒng)設(shè)計(jì)的檢索API,主要暴露兩個(gè)端點(diǎn):/search端點(diǎn)接受文本查詢并返回從所選語(yǔ)料庫(kù)中檢索的文檔排序列表;/fetch端點(diǎn)則根據(jù)給定URL檢索文檔的存檔文本內(nèi)容。

/search端點(diǎn)支持在前面介紹的兩個(gè)語(yǔ)料庫(kù)上進(jìn)行文檔檢索。通過這些固定集合進(jìn)行操作,它能夠提供一致且可重復(fù)的搜索結(jié)果,消除了因網(wǎng)絡(luò)內(nèi)容變化或?qū)崟r(shí)索引更新導(dǎo)致的差異。這種穩(wěn)定性對(duì)于需要可靠檢索行為的長(zhǎng)篇生成系統(tǒng)的基準(zhǔn)測(cè)試至關(guān)重要。

在搜索參數(shù)方面,API默認(rèn)采用動(dòng)態(tài)行為,即L=K×5(其中L是DiskANN搜索時(shí)參數(shù),控制搜索過程中探索的候選鄰居列表大??;K是檢索的文檔數(shù)量)。由于深度研究系統(tǒng)通常是順序發(fā)出查詢而非批量處理,研究團(tuán)隊(duì)在這種單查詢?cè)O(shè)置中評(píng)估了API的延遲,并與商業(yè)替代方案進(jìn)行了比較。結(jié)果顯示,無(wú)論檢索的文檔數(shù)量如何變化,DeepResearchGym的API一致地在半秒內(nèi)響應(yīng),性能優(yōu)于商業(yè)服務(wù)。值得注意的是,這些延遲值不僅包括近似最近鄰搜索,還包括API固有的網(wǎng)絡(luò)請(qǐng)求和查詢編碼,如果需要,還可以通過批處理機(jī)制進(jìn)一步改進(jìn)。

/fetch端點(diǎn)則解決了深度研究系統(tǒng)中使用靜態(tài)網(wǎng)絡(luò)語(yǔ)料庫(kù)的特定挑戰(zhàn)。在生成過程中,系統(tǒng)通過/search端點(diǎn)檢索文檔,訪問爬取期間捕獲的版本。它們的最終報(bào)告引用這些文檔相關(guān)的原始URL。然而,自原始爬取以來(lái),這些URL的實(shí)時(shí)內(nèi)容可能已經(jīng)發(fā)生變化或消失。為了緩解這種差異,/fetch端點(diǎn)提供了爬取期間捕獲的文檔快照,確??梢詸z索到報(bào)告中引用的URL的原始內(nèi)容。這種設(shè)計(jì)使得可以構(gòu)建獨(dú)立于動(dòng)態(tài)或降級(jí)外部源的隔離深度研究管道。該端點(diǎn)的延遲中位數(shù)為每個(gè)請(qǐng)求0.09秒。

與通常需要付費(fèi)訂閱或?qū)嵤﹪?yán)格使用限制的商業(yè)API不同,DeepResearchGym的API對(duì)研究用途是免費(fèi)提供的,用戶只需獲得對(duì)底層語(yǔ)料庫(kù)的訪問權(quán)限。FineWeb訪問是即時(shí)的,而ClueWeb22訪問則需要簽署一份輕量級(jí)數(shù)據(jù)許可協(xié)議,該協(xié)議反映了數(shù)據(jù)集的研究用途條款和版權(quán)條件。完成此協(xié)議后,用戶可以訪問完整的基于ClueWeb22的端點(diǎn),并可選擇下載ClueWeb22-B子集以進(jìn)行本地部署。為支持這種本地實(shí)現(xiàn),研究團(tuán)隊(duì)提供了用于設(shè)置完整檢索管道的開源代碼。為了保護(hù)用戶隱私,除非用戶明確選擇參與研究,否則API不會(huì)記錄查詢流量。

五、評(píng)估方法:全面衡量深度研究質(zhì)量

為了展示DeepResearchGym如何支持深度研究系統(tǒng)的評(píng)估,研究團(tuán)隊(duì)基于Researchy Questions數(shù)據(jù)集實(shí)例化了一個(gè)評(píng)估協(xié)議。這個(gè)數(shù)據(jù)集源自Bing搜索日志,包含與用戶參與相關(guān)的復(fù)雜查詢,使其非常適合基準(zhǔn)測(cè)試能夠合成長(zhǎng)篇多角度報(bào)告的系統(tǒng)。

雖然該沙盒與特定評(píng)估任務(wù)無(wú)關(guān),并且兼容廣泛的用例,但研究團(tuán)隊(duì)引入了這個(gè)協(xié)議來(lái)填補(bǔ)當(dāng)前評(píng)估領(lǐng)域的空白,并使用他們的API提供初步的實(shí)證觀察。該協(xié)議從三個(gè)維度對(duì)生成的報(bào)告進(jìn)行評(píng)分:總體報(bào)告質(zhì)量、對(duì)檢索源的事實(shí)忠實(shí)度以及與用戶信息需求的一致性。

Researchy Questions數(shù)據(jù)集是專門策劃的,旨在捕捉那些自然驅(qū)動(dòng)廣泛信息探索和綜合的查詢。該數(shù)據(jù)集不是簡(jiǎn)單的事實(shí)型問題,而是由約96,000個(gè)真實(shí)世界的信息尋求查詢組成,這些查詢導(dǎo)致用戶在搜索會(huì)話中與多個(gè)文檔交互,通過在ClueWeb22上的聚合點(diǎn)擊分布進(jìn)行測(cè)量。與專注于定位單一事實(shí)的簡(jiǎn)短可回答查詢不同,Researchy Questions展示了需要更廣泛探索和更深入理解的復(fù)雜性。

研究團(tuán)隊(duì)按照三個(gè)評(píng)估維度設(shè)計(jì)了用于評(píng)估長(zhǎng)篇報(bào)告的度量:

1. 報(bào)告相關(guān)性:作為評(píng)估用戶滿意度的主要指標(biāo),研究團(tuán)隊(duì)評(píng)估生成的報(bào)告在多大程度上滿足了用戶的潛在信息需求。由于Researchy Questions來(lái)自真實(shí)世界的網(wǎng)絡(luò)搜索會(huì)話,他們利用用戶點(diǎn)擊的文檔集作為地面真相信息目標(biāo)的代理。他們提取每個(gè)地面真相文檔中的顯著點(diǎn),捕捉用戶交互的核心內(nèi)容,然后評(píng)估每個(gè)生成的報(bào)告對(duì)這些關(guān)鍵點(diǎn)的語(yǔ)義包含情況。同時(shí)也計(jì)算了關(guān)鍵點(diǎn)矛盾度,該指標(biāo)衡量報(bào)告是否引入了與任何關(guān)鍵點(diǎn)沖突的陳述,捕捉潛在的錯(cuò)誤信息或誤導(dǎo)性內(nèi)容。

2. 檢索忠實(shí)度:研究團(tuán)隊(duì)評(píng)估了生成報(bào)告的事實(shí)基礎(chǔ),采用了類似TREC-RAG評(píng)估過程的"LLM-as-a-judge"方法。他們的自動(dòng)引用評(píng)估管道遵循三個(gè)階段:首先,從報(bào)告中提取事實(shí)性聲明及其引用的URL;其次,檢索每個(gè)引用源的內(nèi)容;第三,提示LLM評(píng)估引用的源是否充分支持相應(yīng)的聲明。這個(gè)過程捕捉了引用的存在和它們的實(shí)質(zhì)性有效性。

3. 報(bào)告質(zhì)量:為了捕捉寫作質(zhì)量和分析深度,研究團(tuán)隊(duì)采用了另一個(gè)LLM-as-a-Judge協(xié)議,從兩個(gè)關(guān)鍵維度評(píng)估每個(gè)答案:清晰度(反映邏輯連貫性和語(yǔ)言流暢性)和洞察力(捕捉分析細(xì)微差別和呈現(xiàn)推理的深度)。

六、實(shí)驗(yàn)設(shè)置與系統(tǒng)評(píng)估

為了評(píng)估當(dāng)前深度研究系統(tǒng)的現(xiàn)狀,研究團(tuán)隊(duì)進(jìn)行了系統(tǒng)的基準(zhǔn)測(cè)試研究,遵循前面描述的協(xié)議,使用gpt-4.1-mini-2025-04-14作為L(zhǎng)LM評(píng)判者。他們使用了之前介紹的Researchy Questions數(shù)據(jù)集的子集,即測(cè)試集中按照原始搜索會(huì)話中點(diǎn)擊文檔數(shù)量排名的前1,000個(gè)查詢。這種排名自然傾向于推動(dòng)廣泛探索的查詢,與深度研究系統(tǒng)的目標(biāo)一致。

研究團(tuán)隊(duì)評(píng)估了一系列橫跨商業(yè)和開源實(shí)現(xiàn)的深度研究系統(tǒng)。商業(yè)系統(tǒng)包括OpenAI的gpt4-search-preview和Perplexity的sonar-deepresearch,代表了各自API可用的最強(qiáng)變體。在開源方面,他們包括了GPT-Researcher和HuggingFace DeepSearch。所有四個(gè)系統(tǒng)都能生成長(zhǎng)篇報(bào)告。他們還評(píng)估了三個(gè)學(xué)術(shù)系統(tǒng):OpenDeepSearch能產(chǎn)生類似全面的輸出,而Search-o1和Search-R1則專注于簡(jiǎn)潔的短篇回答。雖然后兩個(gè)系統(tǒng)不是為深度研究任務(wù)設(shè)計(jì)的,但它們作為下限參考,幫助驗(yàn)證評(píng)估指標(biāo)是否能捕捉生成能力的有意義差異。所有系統(tǒng)都使用其默認(rèn)配置進(jìn)行評(píng)估。

利用DeepResearchGym搜索API的實(shí)驗(yàn)?zāi)J(rèn)使用ClueWeb22-B語(yǔ)料庫(kù),因?yàn)樗cResearchy Questions基準(zhǔn)測(cè)試的一致性更高。值得回顧的是,F(xiàn)ineWeb也可以通過API端點(diǎn)獲得,與ClueWeb22不同,它不需要簽署研究使用許可證。

表2展示了每個(gè)系統(tǒng)在兩種不同檢索配置下的評(píng)估結(jié)果:使用系統(tǒng)原始商業(yè)搜索API和使用標(biāo)準(zhǔn)化的DeepResearchGym搜索API。結(jié)果揭示了幾個(gè)重要見解:首先,系統(tǒng)在兩種檢索設(shè)置中通常保持它們的相對(duì)性能排名,證實(shí)了DeepResearchGym的搜索API提供了足夠的檢索質(zhì)量來(lái)支持有效的報(bào)告生成。

其次,研究團(tuán)隊(duì)觀察到不同評(píng)估維度相對(duì)難度的一致模式。即使是表現(xiàn)最佳的系統(tǒng),如perplexity-sonar-deepsearch和GPT-Researcher,在報(bào)告質(zhì)量指標(biāo)(清晰度、洞察力)上的得分也明顯高于信息覆蓋指標(biāo)(KPR),表明語(yǔ)言流暢性已經(jīng)超過了全面的內(nèi)容綜合。這種模式在兩種檢索環(huán)境中都成立,表明深度研究中存在一個(gè)超越檢索基礎(chǔ)設(shè)施的內(nèi)在挑戰(zhàn)。

第三,引用實(shí)踐方面存在顯著的性能差距。GPT-Researcher和OpenDeepSearch展示了強(qiáng)大的引用精確度和召回率,有效地將事實(shí)性聲明基于檢索的證據(jù)。相比之下,HuggingFace的deepresearch等系統(tǒng)的引用指標(biāo)接近零,源于忽略顯式引用機(jī)制的基本設(shè)計(jì)選擇。這突顯了不同方法在概念化證據(jù)基礎(chǔ)方面的關(guān)鍵區(qū)別,無(wú)論是通過顯式源歸屬還是隱式知識(shí)整合。

評(píng)估還揭示了商業(yè)系統(tǒng)中的一個(gè)有趣的權(quán)衡,它們往往在敘述質(zhì)量方面表現(xiàn)出色,但有時(shí)犧牲了精細(xì)的引用精確度。人工檢查表明兩種常見模式:這些系統(tǒng)通常使用引用來(lái)證明更廣泛的報(bào)告部分而非特定聲明,它們有時(shí)引用無(wú)法完全爬取的URL。這表明當(dāng)前系統(tǒng)設(shè)計(jì)中可能存在一種潛在的緊張關(guān)系,一方面是優(yōu)化敘述連貫性,另一方面是精確的證據(jù)錨定。

七、查詢級(jí)分析與人工評(píng)估

為了進(jìn)一步調(diào)查系統(tǒng)性能在各個(gè)查詢中的一致性,研究團(tuán)隊(duì)對(duì)使用每個(gè)系統(tǒng)原始檢索API和DeepResearchGym API獲得的結(jié)果進(jìn)行了細(xì)粒度分析,只關(guān)注明確面向長(zhǎng)篇報(bào)告生成的系統(tǒng)。圖2顯示了三個(gè)評(píng)估維度中每查詢得分的散點(diǎn)圖,Spearman相關(guān)系數(shù)量化了檢索配置之間的一致性。

分析揭示了評(píng)估維度之間的不同模式。在相關(guān)性(KPR)方面,性能更強(qiáng)的系統(tǒng)表現(xiàn)出中度到高度的相關(guān)性,表明在過渡到DeepResearchGym語(yǔ)料庫(kù)時(shí),查詢級(jí)檢索有效性很大程度上得到了保留。然而,中等范圍的查詢顯示出一些得分變異性,表明某些信息需求對(duì)檢索基礎(chǔ)設(shè)施的差異更敏感。相比之下,盡管頂級(jí)系統(tǒng)的絕對(duì)分?jǐn)?shù)很高,但報(bào)告質(zhì)量指標(biāo)在每個(gè)查詢之間表現(xiàn)出較低的相關(guān)性。這意味著雖然敘述流暢性和連貫性對(duì)檢索變化具有魯棒性,但它們與個(gè)別查詢特征沒有緊密耦合。

檢索忠實(shí)度在各系統(tǒng)中顯示出最低的每查詢相關(guān)性,表明這個(gè)維度對(duì)檢索證據(jù)的差異很敏感。檢索文檔的變化不僅會(huì)影響聲明得到支持的程度,還會(huì)影響聲明本身,導(dǎo)致引用忠實(shí)度分?jǐn)?shù)在檢索設(shè)置之間有所變化。雖然跨查詢的平均分?jǐn)?shù)保持穩(wěn)定,一些個(gè)別查詢?cè)趦蓚€(gè)來(lái)源中都產(chǎn)生一致的高分,但更廣泛的模式缺乏一致性,大多數(shù)點(diǎn)分散且沒有明顯的線性趨勢(shì)。這種變異性強(qiáng)調(diào)了在基準(zhǔn)測(cè)試深度研究系統(tǒng)時(shí)使用標(biāo)準(zhǔn)檢索API的重要性,因?yàn)樗兄诳刂茩z索效果,確保觀察到的差異源于模型行為而非不同的證據(jù)獲取。

為了驗(yàn)證自動(dòng)評(píng)估協(xié)議并評(píng)估其與人類判斷的一致性,研究團(tuán)隊(duì)還進(jìn)行了系統(tǒng)的人工評(píng)估研究。評(píng)估集包括210個(gè)查詢及其相應(yīng)的生成報(bào)告。對(duì)于每個(gè)查詢,他們向注釋者展示兩個(gè)不同系統(tǒng)生成的報(bào)告,要求他們根據(jù)整體信息性、連貫性和事實(shí)準(zhǔn)確性選擇更好的一個(gè)。七位注釋者(都是論文的共同作者)參與了研究,每個(gè)查詢由三個(gè)不同的個(gè)人獨(dú)立評(píng)估。為了減輕潛在的偏見,評(píng)估是雙盲進(jìn)行的:注釋者不知道哪些系統(tǒng)產(chǎn)生了每個(gè)報(bào)告,系統(tǒng)分配在查詢之間是隨機(jī)的。報(bào)告展示順序也是隨機(jī)的,以防止位置偏見,不允許平局以強(qiáng)制二元偏好。

為了評(píng)估注釋者間的可靠性,研究團(tuán)隊(duì)計(jì)算了所有注釋比較的成對(duì)Cohen's κ分?jǐn)?shù)。平均成對(duì)κ為0.87,表明注釋者之間高度一致,支持人類判斷的一致性。表3展示了衡量LLM基于自動(dòng)判斷與人類偏好之間一致性的Cohen's κ值,而圖3展示了成對(duì)勝率,顯示基于人類注釋,每個(gè)系統(tǒng)比另一個(gè)系統(tǒng)更受偏好的百分比。結(jié)果表明,自動(dòng)與人工評(píng)估在系統(tǒng)性能排序上高度一致,這驗(yàn)證了研究團(tuán)隊(duì)的LLM-as-a-judge評(píng)估協(xié)議,增強(qiáng)了對(duì)之前部分介紹的基準(zhǔn)測(cè)試結(jié)果的信心。

八、總結(jié)與未來(lái)展望

DeepResearchGym為開發(fā)和基準(zhǔn)測(cè)試深度研究系統(tǒng)提供了一個(gè)可復(fù)現(xiàn)的沙盒,為商業(yè)搜索API提供了一個(gè)穩(wěn)定的替代方案。通過將檢索錨定到高質(zhì)量的網(wǎng)絡(luò)語(yǔ)料庫(kù),并將搜索API與多維評(píng)估協(xié)議相結(jié)合,該框架實(shí)現(xiàn)了對(duì)生成長(zhǎng)篇報(bào)告的系統(tǒng)進(jìn)行受控的基準(zhǔn)測(cè)試。

研究結(jié)果表明,DeepResearchGym的搜索API為商業(yè)檢索基礎(chǔ)設(shè)施提供了可靠的研究級(jí)替代品。在多個(gè)評(píng)估維度上,所有評(píng)估的系統(tǒng)在從專有搜索API過渡到透明且可復(fù)現(xiàn)的檢索環(huán)境時(shí)都保持了相當(dāng)?shù)男阅?,確認(rèn)DeepResearchGym保留了支持復(fù)雜報(bào)告式綜合所需的檢索保真度。通過隔離系統(tǒng)行為與波動(dòng)的檢索條件,DeepResearchGym為深度研究系統(tǒng)的可復(fù)現(xiàn)和公平基準(zhǔn)測(cè)試提供了穩(wěn)定基礎(chǔ)。

未來(lái)對(duì)DeepResearchGym的擴(kuò)展可能擴(kuò)大覆蓋范圍至更大、更新的網(wǎng)絡(luò)語(yǔ)料庫(kù),使得評(píng)估對(duì)時(shí)間敏感的查詢和新興主題成為可能。此外,整合領(lǐng)域特定基準(zhǔn)可能進(jìn)一步支持在醫(yī)療保健或法律等高風(fēng)險(xiǎn)環(huán)境中的評(píng)估,在這些環(huán)境中,檢索精度和事實(shí)可靠性至關(guān)重要。最后,該平臺(tái)為測(cè)試新的代理架構(gòu)(包括結(jié)構(gòu)化規(guī)劃、迭代搜索和強(qiáng)化學(xué)習(xí))提供了空間,推進(jìn)了深度研究系統(tǒng)的研究。

然而,當(dāng)前的局限性包括:深度研究系統(tǒng)對(duì)專有且不斷發(fā)展的LLM的依賴,這限制了輸出的完全可復(fù)現(xiàn)性;LLM-as-a-judge協(xié)議引入的評(píng)估變異性,盡管有提示/輸出標(biāo)準(zhǔn)化;以及使用靜態(tài)網(wǎng)絡(luò)語(yǔ)料庫(kù),這限制了對(duì)新興或時(shí)間敏感內(nèi)容的覆蓋。倫理風(fēng)險(xiǎn)也適用,如偏見放大、錯(cuò)誤信息或檢索內(nèi)容的誤用,盡管DeepResearchGym主要針對(duì)學(xué)術(shù)研究,而非實(shí)際部署。

總之,DeepResearchGym代表了向更透明、更可復(fù)現(xiàn)的深度研究評(píng)估邁出的重要一步,為研究人員提供了擺脫專有商業(yè)API束縛的工具,同時(shí)保持了現(xiàn)實(shí)檢索環(huán)境的質(zhì)量和復(fù)雜性。這個(gè)框架不僅支持當(dāng)前深度研究系統(tǒng)的基準(zhǔn)測(cè)試,還為未來(lái)更高級(jí)、更復(fù)雜系統(tǒng)的發(fā)展鋪平了道路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-