當(dāng)我們想要解決一個(gè)復(fù)雜問(wèn)題時(shí),往往需要像偵探一樣層層抽絲剝繭。比如想知道"哪位數(shù)學(xué)家的故鄉(xiāng)城市人口超過(guò)500萬(wàn),且該城市是某個(gè)講英語(yǔ)國(guó)家的首都?"這樣的問(wèn)題,就需要我們先找到符合條件的數(shù)學(xué)家,再查找他的出生地,然后驗(yàn)證這個(gè)城市的人口和國(guó)家信息。這種需要多步驟、多層次推理的復(fù)雜任務(wù),在人工智能領(lǐng)域被稱為"深度研究"。
這項(xiàng)由北京智源人工智能研究院的夏子毅、羅昆、錢弘錦和劉政團(tuán)隊(duì)開(kāi)展的開(kāi)創(chuàng)性研究,發(fā)表于2025年8月30日的arXiv預(yù)印本平臺(tái)。研究團(tuán)隊(duì)針對(duì)當(dāng)前大語(yǔ)言模型在復(fù)雜推理任務(wù)上的局限性,提出了InfoSeek這一全新的數(shù)據(jù)合成框架,讓僅有3B參數(shù)的小模型在深度研究任務(wù)上的表現(xiàn)能夠媲美甚至超越32B的大模型和商用API。感興趣的讀者可以通過(guò)arXiv:2509.00375v1訪問(wèn)完整論文。
傳統(tǒng)的問(wèn)答任務(wù)就像回答"北京是哪個(gè)國(guó)家的首都?"這樣的直接問(wèn)題,答案顯而易見(jiàn)。而多跳推理任務(wù)則像接力賽一樣,需要一步步傳遞信息才能得到最終答案。但深度研究任務(wù)更像是解一道復(fù)雜的數(shù)學(xué)題,需要同時(shí)滿足多個(gè)條件,而每個(gè)條件本身又可能包含子條件,形成了一個(gè)復(fù)雜的層級(jí)結(jié)構(gòu)。
研究團(tuán)隊(duì)巧妙地將這類問(wèn)題形式化為"層次約束滿足問(wèn)題",就像搭建一座金字塔一樣,每一層都有自己的約束條件,只有當(dāng)所有層級(jí)的條件都滿足時(shí),才能得到唯一正確的答案。這種結(jié)構(gòu)化的方法確保了問(wèn)題的復(fù)雜性和答案的唯一性,避免了簡(jiǎn)單的記憶性回答或模糊的多種可能答案。
InfoSeek的核心創(chuàng)新在于其獨(dú)特的數(shù)據(jù)合成方法。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)雙代理系統(tǒng),就像有兩位偵探合作破案一樣。規(guī)劃者代理負(fù)責(zé)制定整體策略,決定從哪些角度來(lái)構(gòu)建問(wèn)題的復(fù)雜結(jié)構(gòu);而瀏覽者代理則負(fù)責(zé)具體執(zhí)行,從大規(guī)模網(wǎng)頁(yè)和維基百科中提取相關(guān)實(shí)體和關(guān)系信息。
整個(gè)數(shù)據(jù)構(gòu)建過(guò)程分為四個(gè)關(guān)鍵步驟。首先是初始化階段,系統(tǒng)從知識(shí)庫(kù)中隨機(jī)選擇一個(gè)實(shí)體作為最終答案,就像確定偵探小說(shuō)的"兇手"一樣。接下來(lái)是"模糊父節(jié)點(diǎn)"操作,這是InfoSeek的一個(gè)重要?jiǎng)?chuàng)新。系統(tǒng)會(huì)為選定的實(shí)體添加多個(gè)約束條件,但這些條件經(jīng)過(guò)巧妙設(shè)計(jì),確保只有特定實(shí)體能同時(shí)滿足所有條件,避免了答案的模糊性。
第三步是擴(kuò)展樹(shù)結(jié)構(gòu),系統(tǒng)會(huì)繼續(xù)向下挖掘,為已有的節(jié)點(diǎn)添加子節(jié)點(diǎn),增加推理的深度。就像剝洋蔥一樣,每剝開(kāi)一層就發(fā)現(xiàn)新的線索和約束。最后一步是終止和問(wèn)題生成,當(dāng)研究樹(shù)達(dá)到預(yù)設(shè)的復(fù)雜度時(shí),系統(tǒng)會(huì)將整個(gè)結(jié)構(gòu)轉(zhuǎn)換為自然語(yǔ)言問(wèn)題。
研究團(tuán)隊(duì)在數(shù)據(jù)質(zhì)量保證方面下了很大功夫。他們?cè)O(shè)置了兩道質(zhì)量門檻:難度驗(yàn)證和可驗(yàn)證性檢查。難度驗(yàn)證確保問(wèn)題不能僅憑模型的參數(shù)化記憶就能回答,而是真正需要多步推理;可驗(yàn)證性檢查則確保每個(gè)問(wèn)題都有明確的推理路徑和證據(jù)支撐,避免了無(wú)解或多解的情況。
通過(guò)這套完整的框架,InfoSeek成功構(gòu)建了包含5萬(wàn)多個(gè)訓(xùn)練樣本的數(shù)據(jù)集,每個(gè)樣本都附帶完整的推理軌跡。數(shù)據(jù)集的復(fù)雜度呈現(xiàn)出有趣的分布特征:大多數(shù)問(wèn)題需要4到6個(gè)推理節(jié)點(diǎn),而隨著節(jié)點(diǎn)數(shù)量增加,問(wèn)題的難度也顯著提升。即使是強(qiáng)大的Qwen2.5-72B模型,在這些問(wèn)題上的失敗率也高達(dá)92.7%,充分說(shuō)明了數(shù)據(jù)集的挑戰(zhàn)性。
在模型訓(xùn)練方面,研究團(tuán)隊(duì)采用了創(chuàng)新的雙階段訓(xùn)練策略。首先通過(guò)監(jiān)督學(xué)習(xí)讓模型掌握基本的推理模式,就像學(xué)習(xí)偵探的基本技能一樣。然后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的推理和搜索能力,讓模型能夠更好地平衡探索和利用。
為了處理復(fù)雜的信息檢索需求,InfoSeeker采用了獨(dú)特的工作流設(shè)計(jì)。模型在每個(gè)推理步驟都會(huì)先進(jìn)行"思考",規(guī)劃接下來(lái)需要什么信息,然后并行生成多個(gè)搜索查詢,大大提高了信息收集的效率和覆蓋面。更巧妙的是,系統(tǒng)還引入了專門的精煉代理,負(fù)責(zé)將檢索到的大量信息濃縮成精華,避免了信息過(guò)載導(dǎo)致的混亂。
實(shí)驗(yàn)結(jié)果令人振奮。在傳統(tǒng)的單跳和多跳問(wèn)答任務(wù)上,InfoSeeker-3B consistently outperformed all baseline models,包括那些基于檢索增強(qiáng)生成的方法和其他先進(jìn)的代理搜索模型。更令人驚訝的是,在專門測(cè)試深度研究能力的BrowseComp-Plus基準(zhǔn)測(cè)試中,僅有3B參數(shù)的InfoSeeker模型達(dá)到了16.5%的準(zhǔn)確率,顯著超過(guò)了Gemini 2.5 Flash(15.5%)、Sonnet 4(14.3%)和GPT-4.1(14.6%)等商用API,甚至接近Gemini 2.5 Pro(19.0%)的性能水平。
特別值得關(guān)注的是,InfoSeeker相比傳統(tǒng)訓(xùn)練數(shù)據(jù)的優(yōu)勢(shì)非常明顯。使用相同的訓(xùn)練設(shè)置,基于自然問(wèn)題和HotpotQA訓(xùn)練的模型在BrowseComp-Plus上僅能達(dá)到3.0%的準(zhǔn)確率,而InfoSeeker訓(xùn)練的模型卻能達(dá)到16.5%,提升幅度超過(guò)5倍。這清楚地表明,專門針對(duì)深度研究任務(wù)設(shè)計(jì)的數(shù)據(jù)對(duì)模型能力的重要性。
研究團(tuán)隊(duì)還深入分析了模型的搜索行為。InfoSeeker平均每個(gè)問(wèn)題需要進(jìn)行8.24次搜索調(diào)用,比一些商用模型更加高效。這種適度的搜索頻率既保證了信息的充分性,又避免了過(guò)度搜索帶來(lái)的噪聲和計(jì)算成本。
從技術(shù)細(xì)節(jié)來(lái)看,InfoSeek框架具有很強(qiáng)的可擴(kuò)展性和可控性。研究團(tuán)隊(duì)可以通過(guò)調(diào)整研究樹(shù)的深度和廣度來(lái)控制問(wèn)題的復(fù)雜度,就像調(diào)節(jié)游戲的難度級(jí)別一樣。同時(shí),由于保留了完整的構(gòu)建過(guò)程元信息,包括中間步驟和檢索標(biāo)簽,InfoSeek為未來(lái)更復(fù)雜的獎(jiǎng)勵(lì)設(shè)計(jì)和軌跡級(jí)優(yōu)化提供了可能。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。它證明了通過(guò)精心設(shè)計(jì)的數(shù)據(jù)合成方法,小模型也能在復(fù)雜任務(wù)上達(dá)到接近大模型的性能,這對(duì)于資源受限的場(chǎng)景具有重要價(jià)值。同時(shí),InfoSeek的開(kāi)源特性也為學(xué)術(shù)界和產(chǎn)業(yè)界提供了寶貴的研究工具和基準(zhǔn)數(shù)據(jù)集。
從實(shí)用角度來(lái)看,這項(xiàng)技術(shù)為未來(lái)的智能助手開(kāi)辟了新的可能性。用戶可以提出更加復(fù)雜和開(kāi)放的問(wèn)題,而不必?fù)?dān)心模型無(wú)法理解或給出錯(cuò)誤答案。無(wú)論是學(xué)術(shù)研究、商業(yè)分析還是日常生活中的復(fù)雜決策,這種深度研究能力都將發(fā)揮重要作用。
研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量的重要性。通過(guò)嚴(yán)格的質(zhì)量控制流程,InfoSeek確保每個(gè)生成的問(wèn)題都具有明確的答案和清晰的推理路徑。這種對(duì)質(zhì)量的堅(jiān)持不僅提高了訓(xùn)練效果,也為評(píng)估和比較不同模型的深度研究能力提供了可靠的標(biāo)準(zhǔn)。
值得一提的是,InfoSeek的成功也驗(yàn)證了一個(gè)重要觀點(diǎn):在人工智能發(fā)展的當(dāng)前階段,數(shù)據(jù)的質(zhì)量往往比數(shù)量更加重要。通過(guò)精心構(gòu)造的5萬(wàn)個(gè)高質(zhì)量樣本,InfoSeek取得了比使用數(shù)十萬(wàn)傳統(tǒng)樣本更好的效果,這為未來(lái)的AI研究指明了方向。
展望未來(lái),這項(xiàng)研究為人工智能在復(fù)雜推理任務(wù)上的發(fā)展奠定了重要基礎(chǔ)。隨著InfoSeek框架的進(jìn)一步完善和擴(kuò)展,我們有理由期待看到更多能夠進(jìn)行深度思考和復(fù)雜推理的AI系統(tǒng),它們將成為人類在各個(gè)領(lǐng)域探索未知、解決問(wèn)題的得力助手。
說(shuō)到底,InfoSeek的最大貢獻(xiàn)在于證明了即使是小模型,只要有了合適的訓(xùn)練數(shù)據(jù)和方法,也能具備令人印象深刻的深度推理能力。這不僅是技術(shù)上的突破,更是對(duì)AI民主化的重要推進(jìn),讓更多的研究者和開(kāi)發(fā)者能夠構(gòu)建出具有復(fù)雜推理能力的智能系統(tǒng)。感興趣的讀者可以訪問(wèn)研究團(tuán)隊(duì)提供的開(kāi)源代碼和數(shù)據(jù)集,親自體驗(yàn)這一令人興奮的技術(shù)進(jìn)展。
Q&A
Q1:InfoSeek是什么?它解決了什么問(wèn)題?
A:InfoSeek是北京智源人工智能研究院開(kāi)發(fā)的數(shù)據(jù)合成框架,專門用于訓(xùn)練大語(yǔ)言模型的深度研究能力。它解決的核心問(wèn)題是讓AI模型能夠處理需要多層次、多步驟推理的復(fù)雜問(wèn)題,而不是簡(jiǎn)單的記憶性回答。
Q2:為什么3B的小模型能超越32B大模型的性能?
A:關(guān)鍵在于數(shù)據(jù)質(zhì)量。InfoSeek通過(guò)精心設(shè)計(jì)的數(shù)據(jù)合成方法,創(chuàng)建了專門針對(duì)深度研究任務(wù)的高質(zhì)量訓(xùn)練數(shù)據(jù)。研究證明,5萬(wàn)個(gè)高質(zhì)量的InfoSeek樣本比傳統(tǒng)的數(shù)十萬(wàn)樣本更有效,證明了數(shù)據(jù)質(zhì)量比數(shù)量更重要。
Q3:普通人能使用InfoSeek技術(shù)嗎?
A:目前InfoSeek主要面向研究者和開(kāi)發(fā)者,研究團(tuán)隊(duì)已經(jīng)開(kāi)源了完整的代碼和數(shù)據(jù)集。普通用戶暫時(shí)無(wú)法直接使用,但隨著技術(shù)發(fā)展,預(yù)計(jì)未來(lái)會(huì)有基于InfoSeek訓(xùn)練的智能助手產(chǎn)品面向公眾。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。