這項(xiàng)由香港科技大學(xué)的劉俊騰博士、MiniMax公司的李云霽博士以及滑鐵盧大學(xué)的陳文虎教授等研究團(tuán)隊(duì)合作完成的研究發(fā)表于2025年9月,論文詳細(xì)介紹了一種名為WebExplorer的全新訓(xùn)練方法。有興趣深入了解的讀者可以通過(guò)GitHub項(xiàng)目頁(yè)面(https://github.com/hkust-nlp/WebExplorer)訪問(wèn)完整代碼和論文資源。
在人工智能快速發(fā)展的今天,網(wǎng)絡(luò)助手正在成為我們獲取信息的重要工具。當(dāng)你需要查找復(fù)雜信息時(shí),比如"哪位NBA球員在獲得總冠軍戒指后立即宣布退役,而且他的大學(xué)母校現(xiàn)在的主教練曾是他的隊(duì)友",這類問(wèn)題需要助手在多個(gè)網(wǎng)站之間跳轉(zhuǎn)搜索,像偵探一樣拼湊線索才能找到答案。然而,目前大多數(shù)開(kāi)源AI助手在處理這類復(fù)雜搜索任務(wù)時(shí)都表現(xiàn)平平,而那些表現(xiàn)出色的商業(yè)模型又不愿意公開(kāi)訓(xùn)練方法。
研究團(tuán)隊(duì)發(fā)現(xiàn)問(wèn)題的核心在于缺乏足夠有挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)。就像教一個(gè)孩子學(xué)習(xí)解決難題一樣,如果只給他練習(xí)簡(jiǎn)單的加法題,他永遠(yuǎn)學(xué)不會(huì)解復(fù)雜的數(shù)學(xué)應(yīng)用題?,F(xiàn)有的訓(xùn)練數(shù)據(jù)要么太簡(jiǎn)單,要么數(shù)量不足,無(wú)法培養(yǎng)AI助手處理真正困難查詢的能力。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了WebExplorer方法,這是一個(gè)系統(tǒng)性的數(shù)據(jù)生成框架,能夠創(chuàng)造出需要多步推理和復(fù)雜網(wǎng)絡(luò)導(dǎo)航的挑戰(zhàn)性問(wèn)答對(duì)。
通過(guò)這種創(chuàng)新方法,團(tuán)隊(duì)成功訓(xùn)練出了WebExplorer-8B模型。這個(gè)僅有80億參數(shù)的小型模型居然能夠與那些參數(shù)量高達(dá)720億的大型模型相抗衡,甚至在某些任務(wù)上表現(xiàn)更佳。這就像一個(gè)輕量級(jí)拳擊手擊敗了重量級(jí)選手一樣令人驚訝。該模型支持128K上下文長(zhǎng)度和多達(dá)100輪的工具調(diào)用,能夠進(jìn)行真正的長(zhǎng)期推理和問(wèn)題解決。
更令人振奮的是,WebExplorer-8B不僅在信息搜索任務(wù)上表現(xiàn)卓越,還在學(xué)術(shù)基準(zhǔn)測(cè)試中展現(xiàn)出強(qiáng)大的泛化能力,盡管它只是在知識(shí)密集型問(wèn)答數(shù)據(jù)上訓(xùn)練的。這表明研究團(tuán)隊(duì)找到了一條通向長(zhǎng)期推理網(wǎng)絡(luò)助手的實(shí)用路徑。
**一、問(wèn)題的發(fā)現(xiàn):為什么現(xiàn)有的AI助手不夠聰明**
當(dāng)我們打開(kāi)搜索引擎尋找信息時(shí),通常都是輸入幾個(gè)關(guān)鍵詞就能找到答案。但有些問(wèn)題卻像解謎游戲一樣復(fù)雜。比如你想知道某個(gè)歷史事件中一個(gè)關(guān)鍵人物的背景信息,但這個(gè)人物的名字在問(wèn)題中并沒(méi)有直接提及,而是通過(guò)他的職位、年代和其他人物關(guān)系來(lái)描述的。這時(shí)候就需要AI助手像偵探一樣,先從一個(gè)線索開(kāi)始,逐步挖掘更多信息,最終拼湊出完整答案。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前最具挑戰(zhàn)性的信息搜索基準(zhǔn)測(cè)試BrowseComp-en中,超過(guò)一半的問(wèn)題連人類專家花費(fèi)兩小時(shí)都無(wú)法解決。這些問(wèn)題的特點(diǎn)是刻意避免提供明確的搜索入口點(diǎn),而是使用模糊的描述和間接的線索。舉個(gè)例子,問(wèn)題可能會(huì)問(wèn)"那個(gè)在1960到1980年代播出不到50集的電視劇中,經(jīng)常打破第四面墻與觀眾互動(dòng)的幽默角色是誰(shuí)?"這種問(wèn)題沒(méi)有直接給出節(jié)目名稱或角色名稱,需要通過(guò)多個(gè)特征逐步縮小范圍。
然而,現(xiàn)有的開(kāi)源網(wǎng)絡(luò)助手在面對(duì)這類問(wèn)題時(shí)往往力不從心。它們要么缺乏處理復(fù)雜多步推理的能力,要么在信息整合和跨網(wǎng)站搜索方面表現(xiàn)不佳。更關(guān)鍵的是,那些表現(xiàn)優(yōu)異的商業(yè)模型都對(duì)訓(xùn)練方法嚴(yán)格保密,讓研究人員難以學(xué)習(xí)和改進(jìn)。
問(wèn)題的根源在于訓(xùn)練數(shù)據(jù)的質(zhì)量和難度不足。就像體育訓(xùn)練一樣,如果平時(shí)只練習(xí)基礎(chǔ)動(dòng)作,比賽時(shí)就無(wú)法應(yīng)對(duì)復(fù)雜局面?,F(xiàn)有的訓(xùn)練數(shù)據(jù)集要么是通過(guò)規(guī)則自動(dòng)生成的簡(jiǎn)單問(wèn)題,要么是從現(xiàn)實(shí)應(yīng)用中收集的常見(jiàn)查詢,這些數(shù)據(jù)缺乏足夠的挑戰(zhàn)性。當(dāng)AI助手遇到真正復(fù)雜的問(wèn)題時(shí),就像一個(gè)只練過(guò)教科書例題的學(xué)生突然面對(duì)高考?jí)狠S題一樣無(wú)所適從。
傳統(tǒng)的數(shù)據(jù)構(gòu)建方法主要分為兩類。第一類是基于圖結(jié)構(gòu)的方法,研究人員先手工構(gòu)建一個(gè)包含實(shí)體和關(guān)系的知識(shí)圖譜,然后從中選擇子圖來(lái)生成問(wèn)答對(duì)。這種方法就像搭積木一樣,需要事先設(shè)計(jì)好每一塊積木的形狀和連接方式,過(guò)程復(fù)雜且靈活性有限。第二類是基于演化的方法,從簡(jiǎn)單問(wèn)題開(kāi)始,通過(guò)不斷添加新信息來(lái)增加復(fù)雜度。但這種方法往往導(dǎo)致問(wèn)題變得不自然,就像把一個(gè)簡(jiǎn)單句子硬塞進(jìn)各種修飾詞,最終變成冗長(zhǎng)難懂的表述。
研究團(tuán)隊(duì)意識(shí)到,要訓(xùn)練出真正強(qiáng)大的網(wǎng)絡(luò)助手,必須找到一種既能生成足夠復(fù)雜問(wèn)題,又能保持問(wèn)題自然性的新方法。
**二、創(chuàng)新方案:像探索者一樣學(xué)習(xí)搜索**
面對(duì)現(xiàn)有方法的局限性,研究團(tuán)隊(duì)提出了WebExplorer框架,這是一個(gè)包含兩個(gè)階段的創(chuàng)新方案:模型驅(qū)動(dòng)的探索和迭代查詢演化。整個(gè)過(guò)程就像培養(yǎng)一個(gè)經(jīng)驗(yàn)豐富的研究員,先讓他深入探索某個(gè)主題的各個(gè)角落,然后學(xué)會(huì)如何提出既有挑戰(zhàn)性又切合實(shí)際的研究問(wèn)題。
在第一階段,模型驅(qū)動(dòng)的探索階段,研究團(tuán)隊(duì)摒棄了傳統(tǒng)的手工構(gòu)建知識(shí)圖譜的復(fù)雜方法,而是讓強(qiáng)大的語(yǔ)言模型自己來(lái)探索信息空間。這個(gè)過(guò)程類似于讓一個(gè)好奇的學(xué)者從一個(gè)種子話題開(kāi)始,通過(guò)搜索和瀏覽來(lái)發(fā)現(xiàn)相關(guān)信息。比如從"巴西國(guó)家足球隊(duì)"這個(gè)種子開(kāi)始,模型可能會(huì)搜索到1950年世界杯決賽,然后了解到裁判喬治·里德的信息,接著發(fā)現(xiàn)他后來(lái)成為了南安普頓足球俱樂(lè)部的主席,而南安普頓又在1976年足總杯決賽中擊敗了曼聯(lián)。
這種探索方式的優(yōu)勢(shì)在于靈活性和動(dòng)態(tài)性。模型不需要遵循預(yù)設(shè)的規(guī)則或路徑,而是根據(jù)實(shí)際發(fā)現(xiàn)的信息來(lái)決定下一步的探索方向。這就像一個(gè)記者在采訪時(shí),會(huì)根據(jù)被訪者的回答來(lái)調(diào)整后續(xù)問(wèn)題,而不是機(jī)械地按照預(yù)先準(zhǔn)備的問(wèn)題清單進(jìn)行。通過(guò)這種方式,模型能夠發(fā)現(xiàn)各種有趣的信息連接,構(gòu)建出豐富的知識(shí)網(wǎng)絡(luò)。
在完成探索后,模型會(huì)基于發(fā)現(xiàn)的信息網(wǎng)絡(luò)生成初始的問(wèn)答對(duì)。這些問(wèn)答對(duì)通常需要跨越多個(gè)網(wǎng)站和信息源才能解答,具備了一定的復(fù)雜性。但是研究團(tuán)隊(duì)發(fā)現(xiàn),即使是這些初始問(wèn)答對(duì),對(duì)于強(qiáng)大的商業(yè)模型來(lái)說(shuō)仍然相對(duì)容易解決。就像給優(yōu)秀學(xué)生出的題目如果太簡(jiǎn)單,就無(wú)法真正檢驗(yàn)他們的能力一樣。
因此,研究團(tuán)隊(duì)引入了第二階段:迭代查詢演化。這個(gè)階段的目標(biāo)不是像傳統(tǒng)方法那樣添加更多信息來(lái)增加復(fù)雜度,而是通過(guò)巧妙地移除明顯線索和引入策略性的模糊化來(lái)增加難度。這就像把一道數(shù)學(xué)應(yīng)用題中的關(guān)鍵數(shù)字用文字描述替換,或者把直接的條件改成需要推理的間接條件。
以前面提到的足球相關(guān)問(wèn)題為例,初始問(wèn)題可能直接提到"1950年世界杯決賽的官方上座人數(shù)創(chuàng)下了FIFA世界杯比賽的紀(jì)錄,至今仍然保持。這場(chǎng)比賽的裁判是史上最年長(zhǎng)的世界杯決賽執(zhí)法者"。經(jīng)過(guò)演化后,問(wèn)題變成了"在那屆獨(dú)特的FIFA世界杯賽制中,沒(méi)有淘汰賽決賽的賽事里,一位比賽官員后來(lái)指導(dǎo)一支乙級(jí)聯(lián)賽球隊(duì)擊敗了甲級(jí)聯(lián)賽豪門"。這種表述方式雖然描述的是同一件事,但需要讀者具備更多背景知識(shí)和推理能力才能理解。
演化過(guò)程通過(guò)三個(gè)主要策略來(lái)增加難度。第一是移除顯著信息,把原本明確的時(shí)間、地點(diǎn)、人名等關(guān)鍵信息隱藏起來(lái)。第二是引入策略性模糊化,用間接描述替換直接表述。第三是尋找替代性描述方式,用更復(fù)雜的表達(dá)來(lái)傳達(dá)相同信息。通過(guò)多輪迭代演化,最終生成的問(wèn)題需要大量的探索性搜索和多步推理才能解決。
這個(gè)過(guò)程類似于優(yōu)秀教師出題的思路。一個(gè)好的數(shù)學(xué)老師不會(huì)簡(jiǎn)單地把數(shù)字改大來(lái)增加難度,而是會(huì)設(shè)計(jì)需要多種解題技巧綜合運(yùn)用的問(wèn)題。WebExplorer的演化過(guò)程也遵循類似原理,通過(guò)精心設(shè)計(jì)的模糊化和間接化來(lái)創(chuàng)造真正的智力挑戰(zhàn)。
**三、訓(xùn)練策略:從冷啟動(dòng)到強(qiáng)化學(xué)習(xí)的完整方案**
有了高質(zhì)量的訓(xùn)練數(shù)據(jù),接下來(lái)就是如何有效訓(xùn)練模型的問(wèn)題。研究團(tuán)隊(duì)采用了業(yè)界成熟的兩階段訓(xùn)練范式:先進(jìn)行監(jiān)督微調(diào)實(shí)現(xiàn)冷啟動(dòng),然后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步提升能力。這個(gè)過(guò)程就像培養(yǎng)一個(gè)專業(yè)咨詢師,先讓他學(xué)習(xí)標(biāo)準(zhǔn)操作流程,然后在實(shí)踐中不斷改進(jìn)和優(yōu)化。
在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)首先需要收集高質(zhì)量的示范軌跡。他們使用商業(yè)模型來(lái)解決合成的問(wèn)答對(duì),并采用拒絕采樣策略,只保留那些正確解決問(wèn)題的軌跡用于訓(xùn)練。這就像讓學(xué)生觀摩優(yōu)秀老師的解題過(guò)程,學(xué)習(xí)正確的思維方式和操作步驟。
模型的工作方式基于ReAct框架,這是一個(gè)結(jié)合推理和行動(dòng)的范式。在處理查詢時(shí),模型會(huì)進(jìn)行多輪的"思考-行動(dòng)-觀察"循環(huán)。在每一輪中,模型首先在思考標(biāo)簽內(nèi)進(jìn)行推理,分析當(dāng)前情況和下一步應(yīng)該采取的行動(dòng)。然后執(zhí)行具體的工具調(diào)用,比如搜索相關(guān)信息或?yàn)g覽特定網(wǎng)頁(yè)。最后接收工具返回的觀察結(jié)果,為下一輪循環(huán)提供信息基礎(chǔ)。
模型可以使用兩種主要工具。搜索工具能夠查詢搜索引擎,獲取相關(guān)網(wǎng)頁(yè)的標(biāo)題、鏈接和摘要信息。瀏覽工具則能夠深入特定網(wǎng)頁(yè),提取詳細(xì)內(nèi)容并回答特定問(wèn)題。這兩個(gè)工具的配合使用就像一個(gè)研究員既能快速篩選相關(guān)資料,又能深入研讀重要文獻(xiàn)。
在監(jiān)督微調(diào)完成后,模型已經(jīng)具備了基本的搜索和瀏覽能力,但還需要通過(guò)強(qiáng)化學(xué)習(xí)來(lái)進(jìn)一步優(yōu)化決策策略。強(qiáng)化學(xué)習(xí)階段的關(guān)鍵在于設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)。研究團(tuán)隊(duì)采用了復(fù)合獎(jiǎng)勵(lì)機(jī)制,既考慮格式正確性,也關(guān)注答案準(zhǔn)確性。格式獎(jiǎng)勵(lì)確保模型能夠正確調(diào)用工具和維持推理結(jié)構(gòu),準(zhǔn)確性獎(jiǎng)勵(lì)則通過(guò)自動(dòng)化評(píng)判器評(píng)估最終答案的正確性。
強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程特別有趣。研究團(tuán)隊(duì)發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,模型使用的工具調(diào)用次數(shù)不斷增加,從平均11次逐步提升到16次以上。同時(shí),生成軌跡的平均長(zhǎng)度也在不斷增長(zhǎng),最終達(dá)到4萬(wàn)多個(gè)tokens。這種現(xiàn)象類似于數(shù)學(xué)推理中的長(zhǎng)鏈思考,表明模型正在學(xué)會(huì)進(jìn)行更深入、更全面的推理過(guò)程。
為了支持這種長(zhǎng)鏈推理,研究團(tuán)隊(duì)采用了漸進(jìn)式上下文長(zhǎng)度擴(kuò)展策略。訓(xùn)練初期使用64K tokens的上下文長(zhǎng)度和50輪的工具調(diào)用限制,隨著模型能力增強(qiáng),逐步擴(kuò)展到96K tokens和75輪限制,最終達(dá)到128K tokens和100輪的配置。這種漸進(jìn)式擴(kuò)展就像體能訓(xùn)練一樣,讓模型逐步適應(yīng)更長(zhǎng)時(shí)間的推理過(guò)程。
整個(gè)訓(xùn)練過(guò)程的監(jiān)控?cái)?shù)據(jù)顯示,模型在BrowseComp基準(zhǔn)上的表現(xiàn)與工具使用復(fù)雜度呈現(xiàn)出強(qiáng)烈的正相關(guān)關(guān)系。隨著平均工具調(diào)用次數(shù)從11次增長(zhǎng)到16次,模型在BrowseComp-en上的準(zhǔn)確率從7.9%提升到15.7%,在BrowseComp-zh上從21.3%提升到32.0%。這種改進(jìn)驗(yàn)證了長(zhǎng)鏈推理對(duì)于復(fù)雜信息搜索任務(wù)的重要性。
**四、實(shí)驗(yàn)驗(yàn)證:小模型的大突破**
經(jīng)過(guò)完整訓(xùn)練的WebExplorer-8B模型在各種基準(zhǔn)測(cè)試中展現(xiàn)出了令人驚訝的性能表現(xiàn)。這個(gè)僅有80億參數(shù)的模型不僅在同等規(guī)模模型中表現(xiàn)最佳,甚至在多個(gè)任務(wù)上超越了參數(shù)量多出數(shù)倍的大型模型。
在最具挑戰(zhàn)性的BrowseComp-en基準(zhǔn)測(cè)試中,WebExplorer-8B達(dá)到了15.7%的準(zhǔn)確率,超越了之前表現(xiàn)最好的開(kāi)源模型WebSailor-72B的12.0%。要知道,WebSailor-72B的參數(shù)量是WebExplorer-8B的9倍之多,這種跨越式的性能提升充分證明了訓(xùn)練方法的有效性。在中文版本BrowseComp-zh上,這種優(yōu)勢(shì)更加明顯,WebExplorer-8B達(dá)到32.0%的準(zhǔn)確率,而WebSailor-72B只有30.1%。
這種性能差異的背后反映了訓(xùn)練數(shù)據(jù)質(zhì)量的重要性。就像兩個(gè)學(xué)生準(zhǔn)備同樣的考試,一個(gè)使用了精心設(shè)計(jì)的練習(xí)題,另一個(gè)只是機(jī)械重復(fù)簡(jiǎn)單習(xí)題,最終的考試成績(jī)自然會(huì)有顯著差異。WebExplorer的成功證明了有針對(duì)性的高質(zhì)量訓(xùn)練數(shù)據(jù)能夠讓較小的模型獲得超越大型模型的能力。
在其他信息搜索基準(zhǔn)測(cè)試中,WebExplorer-8B同樣表現(xiàn)出色。在WebWalkerQA任務(wù)中達(dá)到62.7%的準(zhǔn)確率,在FRAMES任務(wù)中達(dá)到75.7%的準(zhǔn)確率,這些成績(jī)都在同等規(guī)模模型中名列前茅。更值得一提的是,在需要系統(tǒng)化數(shù)據(jù)提取的WebWalkerQA任務(wù)中,WebExplorer-8B比參數(shù)量達(dá)到720億的WebShaper-72B高出整整10個(gè)百分點(diǎn)。
特別令人印象深刻的是模型在HLE學(xué)術(shù)基準(zhǔn)測(cè)試中的表現(xiàn)。HLE包含來(lái)自各個(gè)學(xué)術(shù)領(lǐng)域的極具挑戰(zhàn)性的STEM問(wèn)題,而WebExplorer的訓(xùn)練數(shù)據(jù)主要來(lái)源于維基百科類似的知識(shí)內(nèi)容。盡管如此,WebExplorer-8B在HLE上達(dá)到了17.3%的準(zhǔn)確率,超越了多個(gè)參數(shù)量更大的32B模型,包括ASearcher-Web-QwQ和WebThinker-32B。這種跨領(lǐng)域泛化能力表明,通過(guò)挑戰(zhàn)性信息搜索任務(wù)的訓(xùn)練,模型獲得了更強(qiáng)的通用推理能力。
訓(xùn)練過(guò)程的動(dòng)態(tài)分析提供了更深入的洞察。研究團(tuán)隊(duì)記錄了強(qiáng)化學(xué)習(xí)過(guò)程中模型行為的變化,發(fā)現(xiàn)了類似于數(shù)學(xué)推理長(zhǎng)鏈現(xiàn)象的有趣規(guī)律。隨著訓(xùn)練進(jìn)行,模型的平均工具調(diào)用次數(shù)穩(wěn)步增長(zhǎng),從初期的11次左右增加到最終的16次以上。同時(shí),生成軌跡的平均長(zhǎng)度也從初期的25K tokens增長(zhǎng)到超過(guò)40K tokens。
這種變化趨勢(shì)與模型性能改進(jìn)高度相關(guān)。在訓(xùn)練的380個(gè)步驟中,BrowseComp-en和BrowseComp-zh的準(zhǔn)確率都呈現(xiàn)出持續(xù)上升的趨勢(shì),與工具使用復(fù)雜度的增長(zhǎng)曲線幾乎完全一致。這種現(xiàn)象類似于人類專家在處理復(fù)雜問(wèn)題時(shí)會(huì)進(jìn)行更深入思考的特點(diǎn),表明模型正在學(xué)會(huì)通過(guò)更全面的信息搜索和更細(xì)致的推理來(lái)解決困難問(wèn)題。
與強(qiáng)大的商業(yè)模型相比,WebExplorer-8B的表現(xiàn)也相當(dāng)有競(jìng)爭(zhēng)力。雖然在絕對(duì)性能上仍有差距,但考慮到參數(shù)規(guī)模和計(jì)算資源的巨大差異,這種表現(xiàn)已經(jīng)非常出色。更重要的是,WebExplorer作為開(kāi)源模型,為研究社區(qū)提供了可復(fù)現(xiàn)和可改進(jìn)的基礎(chǔ),這對(duì)于推動(dòng)整個(gè)領(lǐng)域的發(fā)展具有重要意義。
**五、技術(shù)細(xì)節(jié):構(gòu)建真正有用的AI助手**
WebExplorer系統(tǒng)的成功不僅體現(xiàn)在性能數(shù)字上,更在于其技術(shù)架構(gòu)的精心設(shè)計(jì)。研究團(tuán)隊(duì)在工具設(shè)計(jì)、數(shù)據(jù)處理和訓(xùn)練優(yōu)化等各個(gè)環(huán)節(jié)都進(jìn)行了深入思考和創(chuàng)新。
在工具設(shè)計(jì)方面,研究團(tuán)隊(duì)選擇了兩個(gè)核心工具:搜索和瀏覽。搜索工具連接到Google搜索API,能夠接受多個(gè)查詢?cè)~并返回每個(gè)查詢的前10個(gè)結(jié)果,包括標(biāo)題、URL和內(nèi)容摘要。這種設(shè)計(jì)讓模型能夠快速獲得某個(gè)主題的概況信息,就像研究人員首先瀏覽相關(guān)文獻(xiàn)的標(biāo)題和摘要一樣。
瀏覽工具則更加精細(xì)化,它使用Jina內(nèi)容提取服務(wù)獲取網(wǎng)頁(yè)的完整內(nèi)容,然后通過(guò)Gemini Flash模型根據(jù)特定查詢對(duì)內(nèi)容進(jìn)行分析和總結(jié)。這種兩階段處理方式既保證了內(nèi)容獲取的準(zhǔn)確性,又提供了針對(duì)性的信息提取能力。整個(gè)過(guò)程就像一個(gè)研究助手先打開(kāi)一篇論文,然后根據(jù)你的具體問(wèn)題在論文中尋找相關(guān)段落并進(jìn)行總結(jié)。
在數(shù)據(jù)質(zhì)量控制方面,研究團(tuán)隊(duì)采用了嚴(yán)格的篩選標(biāo)準(zhǔn)。他們使用Claude-4-Sonnet模型測(cè)試初始生成的問(wèn)答對(duì),發(fā)現(xiàn)準(zhǔn)確率達(dá)到86.6%,這表明問(wèn)題相對(duì)簡(jiǎn)單。經(jīng)過(guò)迭代演化后,準(zhǔn)確率下降到67.1%,同時(shí)平均解題步數(shù)從7.9步增加到9.9步。這種變化正好說(shuō)明演化過(guò)程成功地增加了問(wèn)題的復(fù)雜度。
為了確保數(shù)據(jù)的多樣性,研究團(tuán)隊(duì)從維基百科收集種子實(shí)體,涵蓋了歷史、科學(xué)、文化、體育等各個(gè)領(lǐng)域。在生成過(guò)程中,他們還在提示詞中包含了三個(gè)來(lái)自BrowseComp-en的示例問(wèn)答對(duì)作為風(fēng)格參考,確保生成的問(wèn)題具有適當(dāng)?shù)膹?fù)雜度和自然度。最終構(gòu)建的WebExplorer-QA數(shù)據(jù)集包含約4萬(wàn)個(gè)高質(zhì)量問(wèn)答對(duì),為模型訓(xùn)練提供了充足的學(xué)習(xí)材料。
訓(xùn)練配置的優(yōu)化也體現(xiàn)了研究團(tuán)隊(duì)的專業(yè)水平。在監(jiān)督微調(diào)階段,他們使用約1.3萬(wàn)個(gè)訓(xùn)練樣本,批次大小設(shè)為32,學(xué)習(xí)率為1e-5,訓(xùn)練4個(gè)epochs。這種相對(duì)保守的配置確保了模型能夠穩(wěn)定學(xué)習(xí)而不會(huì)過(guò)擬合。在強(qiáng)化學(xué)習(xí)階段,每個(gè)批次包含8個(gè)軌跡生成,批次大小為64,學(xué)習(xí)率調(diào)整為1e-6,整體訓(xùn)練在約1.2萬(wàn)個(gè)樣本上進(jìn)行。
特別值得一提的是上下文長(zhǎng)度的漸進(jìn)式擴(kuò)展策略。現(xiàn)代語(yǔ)言模型支持長(zhǎng)上下文處理,但直接使用最大長(zhǎng)度訓(xùn)練會(huì)導(dǎo)致內(nèi)存和計(jì)算資源的巨大消耗。研究團(tuán)隊(duì)采用了從64K到96K再到128K的漸進(jìn)式擴(kuò)展,讓模型逐步適應(yīng)更長(zhǎng)的推理鏈。這種方法不僅提高了訓(xùn)練效率,還讓模型更好地掌握了長(zhǎng)序列處理能力。
評(píng)估方法的設(shè)計(jì)也反映了實(shí)際應(yīng)用的需求。研究團(tuán)隊(duì)采用了Avg@4的評(píng)估指標(biāo),即對(duì)每個(gè)問(wèn)題運(yùn)行4次并取平均結(jié)果,這樣可以更好地反映模型的穩(wěn)定性。同時(shí),他們使用DeepSeek-V3作為自動(dòng)評(píng)判器來(lái)評(píng)估答案的正確性,避免了人工評(píng)估的主觀性和效率問(wèn)題。
在基準(zhǔn)測(cè)試的選擇上,研究團(tuán)隊(duì)涵蓋了從信息搜索到學(xué)術(shù)推理的各個(gè)方面。BrowseComp系列測(cè)試復(fù)雜信息檢索能力,GAIA測(cè)試通用AI助手能力,WebWalkerQA測(cè)試系統(tǒng)化網(wǎng)頁(yè)遍歷能力,F(xiàn)RAMES測(cè)試事實(shí)性推理能力,XBench-DeepSearch測(cè)試深度信息檢索能力,HLE測(cè)試學(xué)術(shù)級(jí)別的推理能力。這種全方位的評(píng)估確保了模型性能的可靠性和全面性。
**六、深遠(yuǎn)影響:開(kāi)源AI的新里程碑**
WebExplorer的成功不僅僅是一個(gè)技術(shù)突破,更代表了開(kāi)源AI發(fā)展的一個(gè)重要里程碑。這項(xiàng)研究證明了通過(guò)精心設(shè)計(jì)的方法論,相對(duì)較小的團(tuán)隊(duì)也能夠創(chuàng)造出與大型科技公司競(jìng)爭(zhēng)的AI系統(tǒng)。
從技術(shù)發(fā)展的角度來(lái)看,WebExplorer展示了數(shù)據(jù)質(zhì)量相對(duì)于模型規(guī)模的重要性。在當(dāng)前大模型競(jìng)賽愈演愈烈的背景下,這項(xiàng)研究提醒我們,簡(jiǎn)單地增加參數(shù)量并不是提升AI能力的唯一路徑。通過(guò)深入理解任務(wù)本質(zhì),設(shè)計(jì)針對(duì)性的訓(xùn)練方法,即使是資源有限的研究團(tuán)隊(duì)也能夠取得突破性進(jìn)展。
模型驅(qū)動(dòng)的探索方法為未來(lái)的數(shù)據(jù)合成提供了新的思路。傳統(tǒng)的數(shù)據(jù)構(gòu)建方法往往依賴于大量的人工設(shè)計(jì)和規(guī)則制定,不僅成本高昂,還難以保證質(zhì)量的一致性。WebExplorer證明了強(qiáng)大的語(yǔ)言模型可以成為數(shù)據(jù)合成的有力工具,通過(guò)模擬人類研究者的探索過(guò)程來(lái)發(fā)現(xiàn)有價(jià)值的信息連接。這種方法具有良好的可擴(kuò)展性,可以輕易地?cái)U(kuò)展到其他領(lǐng)域和任務(wù)。
迭代查詢演化的策略也為問(wèn)題設(shè)計(jì)提供了新的范式。與傳統(tǒng)的通過(guò)添加信息來(lái)增加復(fù)雜度不同,這種通過(guò)移除顯著線索和引入模糊化的方法更接近真實(shí)世界中的挑戰(zhàn)?,F(xiàn)實(shí)中的問(wèn)題往往不會(huì)直接告訴我們所有需要的信息,而需要通過(guò)推理和搜索來(lái)獲得。WebExplorer的演化策略正是模擬了這種真實(shí)的問(wèn)題解決過(guò)程。
從應(yīng)用前景來(lái)看,WebExplorer開(kāi)啟了開(kāi)源高質(zhì)量AI助手的可能性。目前,最先進(jìn)的AI助手服務(wù)主要由少數(shù)大型科技公司提供,這不僅限制了創(chuàng)新的多樣性,也給用戶帶來(lái)了依賴性風(fēng)險(xiǎn)。WebExplorer的開(kāi)源特性讓更多的開(kāi)發(fā)者和組織能夠構(gòu)建自己的專業(yè)AI助手,這對(duì)于推動(dòng)AI技術(shù)的民主化具有重要意義。
在教育和研究領(lǐng)域,WebExplorer的訓(xùn)練方法論也具有重要的啟示價(jià)值。它展示了如何通過(guò)系統(tǒng)性的方法設(shè)計(jì)來(lái)解決復(fù)雜問(wèn)題,這種思維方式不僅適用于AI研究,也可以應(yīng)用到其他需要?jiǎng)?chuàng)新方法論的領(lǐng)域。研究團(tuán)隊(duì)公開(kāi)的完整代碼和數(shù)據(jù)為其他研究者提供了寶貴的學(xué)習(xí)資源,有助于推動(dòng)整個(gè)研究社區(qū)的發(fā)展。
強(qiáng)化學(xué)習(xí)中觀察到的長(zhǎng)鏈推理現(xiàn)象也為我們理解AI系統(tǒng)的學(xué)習(xí)過(guò)程提供了新的視角。類似于人類專家在處理復(fù)雜問(wèn)題時(shí)會(huì)進(jìn)行更深入思考,AI系統(tǒng)也能夠通過(guò)適當(dāng)?shù)挠?xùn)練學(xué)會(huì)進(jìn)行更全面的推理。這種發(fā)現(xiàn)對(duì)于未來(lái)設(shè)計(jì)更智能的AI系統(tǒng)具有重要的指導(dǎo)意義。
當(dāng)然,WebExplorer也面臨一些挑戰(zhàn)和限制。首先是計(jì)算資源的需求,雖然相對(duì)于訓(xùn)練更大規(guī)模的模型來(lái)說(shuō)已經(jīng)相當(dāng)高效,但對(duì)于個(gè)人研究者來(lái)說(shuō)仍然是一個(gè)門檻。其次是訓(xùn)練數(shù)據(jù)的領(lǐng)域限制,當(dāng)前的方法主要針對(duì)基于維基百科的知識(shí)型問(wèn)答,在其他專業(yè)領(lǐng)域的適應(yīng)性還需要進(jìn)一步驗(yàn)證。
不過(guò),這些限制并不影響WebExplorer作為方法論突破的價(jià)值。隨著計(jì)算資源成本的不斷下降和訓(xùn)練方法的進(jìn)一步優(yōu)化,這些技術(shù)門檻將逐步降低。更重要的是,WebExplorer提供的思路和框架具有很強(qiáng)的可擴(kuò)展性,研究者可以根據(jù)自己的需求進(jìn)行調(diào)整和改進(jìn)。
說(shuō)到底,WebExplorer的意義不僅在于創(chuàng)造了一個(gè)性能優(yōu)異的AI助手,更在于證明了開(kāi)源研究的巨大潛力。在AI技術(shù)快速發(fā)展的今天,這種開(kāi)放、協(xié)作的研究方式將成為推動(dòng)整個(gè)領(lǐng)域進(jìn)步的重要?jiǎng)恿ΑMㄟ^(guò)公開(kāi)方法、分享經(jīng)驗(yàn),研究社區(qū)能夠更快地解決共同面臨的挑戰(zhàn),最終讓AI技術(shù)更好地服務(wù)于全人類的福祉。
Q&A
Q1:WebExplorer是什么?它與其他AI助手有什么不同?
A:WebExplorer是香港科技大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的AI網(wǎng)絡(luò)助手訓(xùn)練方法,通過(guò)"探索進(jìn)化"的兩階段方案生成高質(zhì)量訓(xùn)練數(shù)據(jù)。與其他方法不同,它讓AI模型像偵探一樣自主探索信息,然后通過(guò)巧妙地隱藏線索而不是添加信息來(lái)增加問(wèn)題難度,最終訓(xùn)練出的80億參數(shù)模型能夠超越720億參數(shù)的大型模型。
Q2:WebExplorer的訓(xùn)練數(shù)據(jù)是如何生成的?
A:訓(xùn)練數(shù)據(jù)通過(guò)兩個(gè)階段生成。第一階段是模型驅(qū)動(dòng)探索,從種子實(shí)體開(kāi)始讓AI模型通過(guò)搜索和瀏覽自主發(fā)現(xiàn)相關(guān)信息,構(gòu)建復(fù)雜的知識(shí)網(wǎng)絡(luò)。第二階段是迭代查詢演化,通過(guò)移除明顯線索、引入模糊化描述等方式,將簡(jiǎn)單問(wèn)題轉(zhuǎn)化為需要多步推理的復(fù)雜查詢,最終生成約4萬(wàn)個(gè)高質(zhì)量問(wèn)答對(duì)。
Q3:普通用戶能使用WebExplorer嗎?它的應(yīng)用前景如何?
A:目前WebExplorer主要以開(kāi)源研究項(xiàng)目形式存在,代碼已在GitHub公開(kāi)。雖然普通用戶暫時(shí)無(wú)法直接使用,但它的開(kāi)源特性讓更多開(kāi)發(fā)者能構(gòu)建專業(yè)AI助手,有助于打破大公司壟斷,推動(dòng)AI技術(shù)民主化。未來(lái)可能會(huì)有基于WebExplorer技術(shù)的應(yīng)用產(chǎn)品面向普通用戶。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。