當(dāng)我們?cè)诰W(wǎng)上搜索信息時(shí),往往需要翻閱大量網(wǎng)頁(yè),篩選有用內(nèi)容,然后將這些零散信息組織成有意義的報(bào)告或答案。這個(gè)過(guò)程既耗時(shí)又容易出錯(cuò)?,F(xiàn)在,想象有一個(gè)AI助手能夠像人類研究員一樣,自動(dòng)在網(wǎng)絡(luò)上搜索、閱讀、思考和總結(jié),最終為你生成高質(zhì)量的研究報(bào)告。這聽(tīng)起來(lái)像科幻電影,但實(shí)際上正在成為現(xiàn)實(shí)。
華為技術(shù)有限公司的研究團(tuán)隊(duì)最近發(fā)布了一項(xiàng)突破性研究成果,由李文俊、陳智、林景如等十一位資深研究員共同完成。這項(xiàng)研究發(fā)表于2025年9月,論文題為《深度研究系統(tǒng)的強(qiáng)化學(xué)習(xí)基礎(chǔ):綜述》,詳細(xì)論述了如何讓AI系統(tǒng)像人類專家一樣進(jìn)行深度研究。有興趣深入了解的讀者可以通過(guò)arXiv:2509.06733這個(gè)編號(hào)在arXiv網(wǎng)站上找到完整論文,研究團(tuán)隊(duì)還在github.com/wenjunli-0/deepresearch-survey提供了相關(guān)資源。
這項(xiàng)研究的核心問(wèn)題是:如何讓AI不僅僅回答簡(jiǎn)單問(wèn)題,而是能夠像博士生寫(xiě)論文那樣,進(jìn)行復(fù)雜的多步驟研究?傳統(tǒng)的AI訓(xùn)練方法就像教學(xué)生背標(biāo)準(zhǔn)答案,但真正的研究需要的是探索未知、處理不確定性、從錯(cuò)誤中學(xué)習(xí)的能力。華為團(tuán)隊(duì)提出,解決這個(gè)問(wèn)題的關(guān)鍵在于使用強(qiáng)化學(xué)習(xí)技術(shù)——一種讓AI通過(guò)嘗試和反饋來(lái)學(xué)習(xí)的方法,就像教孩子騎自行車一樣。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前大多數(shù)AI研究助手的訓(xùn)練方法存在根本性局限。就好比我們總是給學(xué)生提供完美的解題步驟讓他們模仿,但從不讓他們面對(duì)真正的難題去摸索。這種方法培養(yǎng)出的AI只會(huì)"照葫蘆畫(huà)瓢",無(wú)法處理復(fù)雜的現(xiàn)實(shí)場(chǎng)景。而強(qiáng)化學(xué)習(xí)的方法更像是讓AI在真實(shí)環(huán)境中實(shí)習(xí),通過(guò)不斷嘗試、犯錯(cuò)、改正來(lái)積累經(jīng)驗(yàn)。
為了讓普通讀者理解這項(xiàng)研究的重要性,我們可以把AI研究助手比作一個(gè)正在學(xué)習(xí)成為偵探的新手。傳統(tǒng)訓(xùn)練方法就像讓這個(gè)新手反復(fù)閱讀經(jīng)典案例的標(biāo)準(zhǔn)解答,而強(qiáng)化學(xué)習(xí)則是讓他真正走上街頭,面對(duì)復(fù)雜多變的實(shí)際案件,在導(dǎo)師的指導(dǎo)下逐步提升破案能力。
一、數(shù)據(jù)制造的新配方:為AI研究助手準(zhǔn)備"營(yíng)養(yǎng)餐"
在訓(xùn)練AI研究助手的過(guò)程中,數(shù)據(jù)就像是給學(xué)生準(zhǔn)備的練習(xí)題。但是,為強(qiáng)化學(xué)習(xí)準(zhǔn)備數(shù)據(jù)和為傳統(tǒng)方法準(zhǔn)備數(shù)據(jù)完全不同,就像為馬拉松選手和短跑選手準(zhǔn)備訓(xùn)練計(jì)劃的區(qū)別一樣。
華為研究團(tuán)隊(duì)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)需要的不是標(biāo)準(zhǔn)答案,而是具有挑戰(zhàn)性的問(wèn)題和可靠的評(píng)分標(biāo)準(zhǔn)。想象你要訓(xùn)練一個(gè)學(xué)生成為優(yōu)秀的辯論手,你不會(huì)只給他背誦標(biāo)準(zhǔn)演講稿,而是會(huì)給他各種復(fù)雜的辯題,讓他在實(shí)際辯論中學(xué)習(xí)如何組織論據(jù)、應(yīng)對(duì)質(zhì)疑、調(diào)整策略。
研究團(tuán)隊(duì)將訓(xùn)練數(shù)據(jù)的構(gòu)建分為兩個(gè)關(guān)鍵環(huán)節(jié):構(gòu)造復(fù)雜問(wèn)題和篩選優(yōu)質(zhì)內(nèi)容。在構(gòu)造問(wèn)題方面,他們發(fā)現(xiàn)需要?jiǎng)?chuàng)造那些無(wú)法通過(guò)簡(jiǎn)單查找或記憶解決的任務(wù)。比如,不是問(wèn)"法國(guó)的首都是什么",而是問(wèn)"分析法國(guó)城市化進(jìn)程對(duì)歐盟經(jīng)濟(jì)政策的影響,并結(jié)合最新的社會(huì)學(xué)研究提供政策建議"。這類問(wèn)題需要AI跨越多個(gè)信息源,進(jìn)行復(fù)雜推理,就像要求學(xué)生寫(xiě)一篇綜合多個(gè)學(xué)科知識(shí)的研究報(bào)告。
團(tuán)隊(duì)提出了三種主要的問(wèn)題構(gòu)造策略。第一種是"跨文檔組合",就像拼圖游戲一樣,需要從多個(gè)不同的網(wǎng)頁(yè)或文檔中收集信息片段,然后組合成完整答案。比如DeepDiver團(tuán)隊(duì)開(kāi)發(fā)的WebPuzzle數(shù)據(jù)集,會(huì)從多個(gè)網(wǎng)頁(yè)生成需要交叉驗(yàn)證信息的問(wèn)題。第二種策略是"結(jié)構(gòu)化路徑增長(zhǎng)",通過(guò)模擬人類瀏覽網(wǎng)頁(yè)的行為,從一個(gè)權(quán)威網(wǎng)站開(kāi)始,沿著鏈接逐步深入,構(gòu)造需要多步導(dǎo)航才能解決的問(wèn)題。第三種策略是"難度遞進(jìn)變換",從簡(jiǎn)單問(wèn)題開(kāi)始,逐步增加約束條件和復(fù)雜度,就像數(shù)學(xué)練習(xí)冊(cè)從基礎(chǔ)題逐漸過(guò)渡到綜合應(yīng)用題。
在數(shù)據(jù)篩選方面,研究團(tuán)隊(duì)面臨的挑戰(zhàn)是如何確保AI學(xué)習(xí)的內(nèi)容既有挑戰(zhàn)性又不會(huì)導(dǎo)致胡亂猜測(cè)。他們?cè)O(shè)計(jì)了多重篩選機(jī)制:首先過(guò)濾掉那些AI已經(jīng)能夠輕易回答的問(wèn)題,確保每個(gè)訓(xùn)練樣本都具有學(xué)習(xí)價(jià)值;然后驗(yàn)證答案的可靠性,確保存在明確的正確答案;最后按照難度分級(jí),設(shè)計(jì)從易到難的學(xué)習(xí)路徑。
這種數(shù)據(jù)準(zhǔn)備方式的創(chuàng)新在于,它不再依賴人工標(biāo)注的標(biāo)準(zhǔn)答案,而是創(chuàng)造了一個(gè)可以自動(dòng)評(píng)估和反饋的環(huán)境。就像建設(shè)一個(gè)模擬城市來(lái)訓(xùn)練城市規(guī)劃師,而不是只讓他們閱讀規(guī)劃教科書(shū)。這種方法讓AI能夠在接近真實(shí)工作環(huán)境的條件下學(xué)習(xí),大大提高了訓(xùn)練效果。
二、強(qiáng)化學(xué)習(xí)的"個(gè)人教練":三種訓(xùn)練秘訣
如果說(shuō)傳統(tǒng)AI訓(xùn)練像是在教室里聽(tīng)講座,那么強(qiáng)化學(xué)習(xí)就像是配備了個(gè)人教練的實(shí)戰(zhàn)訓(xùn)練。華為團(tuán)隊(duì)的研究揭示了三個(gè)關(guān)鍵的訓(xùn)練方向,每個(gè)都像不同類型的教練,幫助AI研究助手掌握不同的核心技能。
第一個(gè)方向是訓(xùn)練體系和優(yōu)化結(jié)構(gòu)的改進(jìn),就像體育訓(xùn)練中的基礎(chǔ)體能訓(xùn)練。研究團(tuán)隊(duì)發(fā)現(xiàn),大多數(shù)成功的系統(tǒng)都采用了一種叫做"DeepSeek-R1風(fēng)格"的基礎(chǔ)訓(xùn)練框架。這個(gè)框架的工作原理很像學(xué)游泳:首先在淺水區(qū)練習(xí)基本動(dòng)作(冷啟動(dòng)階段),然后逐步到深水區(qū)進(jìn)行實(shí)戰(zhàn)練習(xí)(強(qiáng)化學(xué)習(xí)階段)。
在冷啟動(dòng)階段,AI需要學(xué)會(huì)基本的"禮儀"——如何正確地調(diào)用搜索引擎、如何解析網(wǎng)頁(yè)內(nèi)容、如何組織語(yǔ)言等。這就像教孩子在餐廳用餐前先學(xué)會(huì)使用刀叉。WebSailor團(tuán)隊(duì)的研究顯示,這個(gè)預(yù)備訓(xùn)練階段對(duì)于復(fù)雜任務(wù)至關(guān)重要,因?yàn)槿绻鸄I連基本操作都不會(huì),直接進(jìn)入強(qiáng)化學(xué)習(xí)就像讓不會(huì)游泳的人直接跳進(jìn)深水池。
隨后的強(qiáng)化學(xué)習(xí)階段更加有趣。AI會(huì)收到一個(gè)復(fù)雜問(wèn)題,然后開(kāi)始它的"探索之旅":思考策略、搜索信息、分析結(jié)果、調(diào)整方法,最終給出答案。整個(gè)過(guò)程就像偵探破案,需要不斷收集線索、驗(yàn)證假設(shè)、修正推理。關(guān)鍵的創(chuàng)新在于,系統(tǒng)會(huì)根據(jù)最終結(jié)果的質(zhì)量給出反饋,但這個(gè)反饋會(huì)影響到整個(gè)探索過(guò)程中的每一步?jīng)Q策。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要的訓(xùn)練技巧:課程學(xué)習(xí)。這就像健身房的訓(xùn)練計(jì)劃,從輕重量開(kāi)始,逐步增加難度。EvolveSearch項(xiàng)目展示了如何設(shè)計(jì)兩階段課程:發(fā)現(xiàn)階段鼓勵(lì)A(yù)I大膽探索各種信息源,精煉階段則教它如何篩選最有價(jià)值的信息。這種方法避免了AI一開(kāi)始就被過(guò)于復(fù)雜的任務(wù)嚇住,也防止了它在簡(jiǎn)單任務(wù)上浪費(fèi)太多時(shí)間。
第二個(gè)重要方向是獎(jiǎng)勵(lì)設(shè)計(jì)和信用分配。這相當(dāng)于設(shè)計(jì)一套完善的評(píng)分標(biāo)準(zhǔn),讓AI知道什么行為值得獎(jiǎng)勵(lì)。傳統(tǒng)方法只關(guān)注最終答案是否正確,就像只看學(xué)生的期末考試成績(jī)。但強(qiáng)化學(xué)習(xí)需要更細(xì)致的反饋機(jī)制,能夠識(shí)別AI在整個(gè)研究過(guò)程中的每個(gè)有價(jià)值的步驟。
研究團(tuán)隊(duì)開(kāi)發(fā)了多種創(chuàng)新的獎(jiǎng)勵(lì)機(jī)制。其中一種叫"超越基礎(chǔ)檢索的增益",專門(mén)獎(jiǎng)勵(lì)那些通過(guò)AI主動(dòng)搜索獲得的信息改進(jìn)。想象兩個(gè)學(xué)生都答對(duì)了同一道題,但一個(gè)是通過(guò)深入研究得出答案,另一個(gè)只是運(yùn)氣好猜對(duì)了,這種機(jī)制能夠區(qū)分并獎(jiǎng)勵(lì)前者。另一種機(jī)制關(guān)注"知識(shí)邊界感知",獎(jiǎng)勵(lì)A(yù)I正確判斷自己是否需要外部信息的能力,就像獎(jiǎng)勵(lì)學(xué)生誠(chéng)實(shí)承認(rèn)"我需要查資料"而不是胡亂猜測(cè)。
還有一些機(jī)制專門(mén)處理步驟級(jí)的獎(jiǎng)勵(lì)。StepSearch項(xiàng)目創(chuàng)造了一種"信息增益vs冗余"的評(píng)分系統(tǒng),每當(dāng)AI搜索到新的有價(jià)值信息時(shí)給予獎(jiǎng)勵(lì),但如果重復(fù)搜索已知信息則給予懲罰。這就像獎(jiǎng)勵(lì)學(xué)生發(fā)現(xiàn)新的論據(jù)支持觀點(diǎn),但不鼓勵(lì)他們反復(fù)引用同一個(gè)例子。
第三個(gè)方向是多模態(tài)研究能力的整合?,F(xiàn)實(shí)世界的研究往往涉及文字、圖片、視頻、音頻等多種信息形式。華為團(tuán)隊(duì)的研究顯示,讓AI具備處理多種媒體類型的能力,就像培養(yǎng)一個(gè)既能閱讀文獻(xiàn)又能分析圖表和觀察實(shí)驗(yàn)視頻的研究員。
在多模態(tài)訓(xùn)練中,最大的挑戰(zhàn)是讓AI學(xué)會(huì)何時(shí)需要"看"而不僅僅是"讀"。VRAG-RL項(xiàng)目開(kāi)發(fā)了一套機(jī)制,讓AI能夠主動(dòng)決定是否需要裁剪圖片的特定區(qū)域來(lái)獲得更清晰的細(xì)節(jié),或者是否需要對(duì)圖片進(jìn)行標(biāo)注來(lái)幫助理解。這就像訓(xùn)練一個(gè)藝術(shù)史學(xué)者,不僅要讀懂文字描述,還要能夠仔細(xì)觀察畫(huà)作的構(gòu)圖、色彩和技法細(xì)節(jié)。
有趣的是,多模態(tài)訓(xùn)練還需要解決"證據(jù)必要性學(xué)習(xí)"的問(wèn)題。AI需要學(xué)會(huì)判斷何時(shí)文字信息足夠,何時(shí)必須查看圖片或視頻。WebWatcher項(xiàng)目在這方面有重要突破,它訓(xùn)練AI根據(jù)問(wèn)題性質(zhì)來(lái)決定搜索策略:如果問(wèn)題涉及視覺(jué)元素,優(yōu)先搜索包含相關(guān)圖片的網(wǎng)頁(yè);如果是概念性問(wèn)題,則專注于文字內(nèi)容。
三、訓(xùn)練系統(tǒng)的"工程奇跡":九大支撐平臺(tái)
訓(xùn)練一個(gè)AI研究助手不僅需要好的算法,更需要強(qiáng)大的技術(shù)平臺(tái)來(lái)支撐。華為團(tuán)隊(duì)的研究揭示了九個(gè)主要的訓(xùn)練框架,每個(gè)都像是為特定需求設(shè)計(jì)的專業(yè)工具,共同構(gòu)成了一個(gè)完整的"AI訓(xùn)練工廠"。
這些訓(xùn)練平臺(tái)面臨的首要挑戰(zhàn)是處理超長(zhǎng)對(duì)話和工具使用的復(fù)雜性。想象一個(gè)AI研究助手在處理復(fù)雜問(wèn)題時(shí),可能需要進(jìn)行幾十輪的搜索、閱讀、思考循環(huán),每一輪都會(huì)產(chǎn)生大量的中間結(jié)果。這就像同時(shí)進(jìn)行多個(gè)復(fù)雜的烹飪項(xiàng)目,需要精確的時(shí)間管理和資源協(xié)調(diào)。
AReaL框架專門(mén)解決了"異步并行訓(xùn)練"的問(wèn)題。傳統(tǒng)訓(xùn)練方法要求所有AI實(shí)例同步完成任務(wù)才能進(jìn)行下一輪學(xué)習(xí),就像要求一個(gè)班級(jí)的所有學(xué)生都完成作業(yè)后才能開(kāi)始新課。但AI研究任務(wù)的完成時(shí)間差異很大:有的問(wèn)題幾分鐘就能解決,有的可能需要幾個(gè)小時(shí)的深入探索。AReaL讓快的學(xué)生可以繼續(xù)學(xué)習(xí)新內(nèi)容,慢的學(xué)生也能按自己的節(jié)奏完成,大大提高了訓(xùn)練效率。
SLIME框架則專注于"服務(wù)化訓(xùn)練"的概念。它將AI訓(xùn)練過(guò)程包裝成類似網(wǎng)上購(gòu)物的服務(wù)模式:需要訓(xùn)練時(shí)發(fā)出請(qǐng)求,系統(tǒng)自動(dòng)分配資源,完成后返回結(jié)果。這種方法特別適合大規(guī)模訓(xùn)練,就像將手工作坊改造成現(xiàn)代化工廠流水線,能夠處理更復(fù)雜的任務(wù)并支持更多用戶同時(shí)使用。
Agent Lightning框架創(chuàng)新性地解決了"訓(xùn)練-部署分離"的問(wèn)題。在傳統(tǒng)方法中,訓(xùn)練AI和實(shí)際部署AI使用的是完全不同的系統(tǒng),就像在實(shí)驗(yàn)室培養(yǎng)的植物移植到野外環(huán)境時(shí)需要重新適應(yīng)。Agent Lightning設(shè)計(jì)了一套通用接口,讓AI可以在訓(xùn)練環(huán)境中直接連接到真實(shí)的工具和數(shù)據(jù)源,訓(xùn)練完成后可以無(wú)縫切換到生產(chǎn)環(huán)境。
特別值得關(guān)注的是verl框架,它專門(mén)處理"零冗余重新分片"的技術(shù)挑戰(zhàn)。簡(jiǎn)單來(lái)說(shuō),就是在AI訓(xùn)練和實(shí)際使用之間切換時(shí),避免重復(fù)加載相同的模型數(shù)據(jù)。這就像搬家時(shí)有一套神奇的系統(tǒng),能夠瞬間將家具從舊房子重新排列到新房子,不需要重新購(gòu)買任何東西。這種技術(shù)對(duì)于大規(guī)模AI系統(tǒng)至關(guān)重要,因?yàn)楝F(xiàn)代AI模型的大小可能達(dá)到數(shù)百GB,重復(fù)加載不僅浪費(fèi)時(shí)間,更會(huì)占用巨大的計(jì)算資源。
ROLL框架則專注于"樣本級(jí)調(diào)度"的精細(xì)管理。每個(gè)訓(xùn)練樣本都有自己的生命周期:從接收任務(wù)開(kāi)始,經(jīng)過(guò)環(huán)境交互、獎(jiǎng)勵(lì)計(jì)算,最后完成學(xué)習(xí)更新。ROLL就像一個(gè)智能的項(xiàng)目管理系統(tǒng),能夠同時(shí)跟蹤成千上萬(wàn)個(gè)訓(xùn)練樣本的狀態(tài),確保每個(gè)樣本都能得到適當(dāng)?shù)奶幚?,避免資源浪費(fèi)或任務(wù)遺漏。
OpenR框架在"過(guò)程監(jiān)督"方面有獨(dú)特貢獻(xiàn)。它不僅關(guān)注AI的最終答案是否正確,還能監(jiān)督和評(píng)估AI的思考過(guò)程是否合理。就像老師不僅要看學(xué)生的答案,還要檢查解題步驟的邏輯性。OpenR集成了過(guò)程獎(jiǎng)勵(lì)模型,能夠在訓(xùn)練過(guò)程中實(shí)時(shí)發(fā)現(xiàn)AI推理的問(wèn)題,并給出針對(duì)性的指導(dǎo)。
Verifiers框架則專注于"多標(biāo)準(zhǔn)評(píng)估"的復(fù)雜需求。現(xiàn)實(shí)中的研究任務(wù)很難用單一標(biāo)準(zhǔn)來(lái)評(píng)判好壞,需要從準(zhǔn)確性、完整性、邏輯性、創(chuàng)新性等多個(gè)維度進(jìn)行評(píng)估。Verifiers提供了一套靈活的評(píng)估工具,可以根據(jù)不同類型的任務(wù)設(shè)計(jì)相應(yīng)的評(píng)估標(biāo)準(zhǔn),就像為不同類型的比賽設(shè)計(jì)不同的評(píng)分規(guī)則。
這些框架的選擇使用也有一定的策略性。如果主要關(guān)注訓(xùn)練吞吐量,AReaL和SLIME是首選;如果需要與現(xiàn)有系統(tǒng)兼容,Agent Lightning更合適;如果要處理超大規(guī)模模型,verl的零冗余技術(shù)不可缺少;如果注重訓(xùn)練質(zhì)量和過(guò)程監(jiān)督,OpenR和Verifiers更有優(yōu)勢(shì)。很多實(shí)際項(xiàng)目會(huì)組合使用多個(gè)框架,就像組裝一臺(tái)定制電腦,根據(jù)具體需求選擇最合適的組件。
四、智能協(xié)作的藝術(shù):從單打獨(dú)斗到團(tuán)隊(duì)作戰(zhàn)
在現(xiàn)實(shí)的研究工作中,很少有人能夠獨(dú)自完成所有任務(wù)。通常需要一個(gè)團(tuán)隊(duì):有人負(fù)責(zé)制定研究計(jì)劃,有人負(fù)責(zé)收集資料,有人負(fù)責(zé)數(shù)據(jù)分析,有人負(fù)責(zé)撰寫(xiě)報(bào)告。華為團(tuán)隊(duì)的研究發(fā)現(xiàn),AI研究助手也需要這種團(tuán)隊(duì)協(xié)作的能力。
當(dāng)前業(yè)界出現(xiàn)了一個(gè)有趣的趨勢(shì):從"萬(wàn)能型AI"向"專業(yè)化團(tuán)隊(duì)"轉(zhuǎn)變。就像一家成功的咨詢公司,不會(huì)讓一個(gè)人既做市場(chǎng)調(diào)研、又做財(cái)務(wù)分析、還要寫(xiě)最終報(bào)告,而是讓每個(gè)專家專注于自己最擅長(zhǎng)的領(lǐng)域,然后通過(guò)有效的協(xié)調(diào)機(jī)制整合大家的工作成果。
華為團(tuán)隊(duì)分析了四個(gè)代表性的開(kāi)源深度研究框架,每個(gè)都體現(xiàn)了不同的協(xié)作哲學(xué)。Aomni的方法比較直接,采用了"單人多輪"的模式,就像一個(gè)經(jīng)驗(yàn)豐富的研究員獨(dú)自完成整個(gè)項(xiàng)目,但會(huì)多次回顧和完善自己的工作。這種方法的優(yōu)點(diǎn)是簡(jiǎn)單可控,缺點(diǎn)是容易在復(fù)雜任務(wù)上遇到瓶頸。
ByteDance的DeerFlow框架則采用了明確的"分工協(xié)作"模式。它設(shè)置了專門(mén)的計(jì)劃員來(lái)分解任務(wù),協(xié)調(diào)員來(lái)管理進(jìn)度,研究團(tuán)隊(duì)來(lái)執(zhí)行具體工作,報(bào)告員來(lái)整理最終成果。這就像一個(gè)成熟的研究機(jī)構(gòu),每個(gè)角色都有明確的職責(zé)。這種方法能夠處理更復(fù)雜的任務(wù),但需要更精細(xì)的協(xié)調(diào)機(jī)制。
LangChain的框架提供了更多的靈活性,支持三種不同的工作模式:?jiǎn)稳俗鳂I(yè)、計(jì)劃-執(zhí)行分離、主管-多研究員并行。這就像一個(gè)可以根據(jù)項(xiàng)目規(guī)模和復(fù)雜度靈活調(diào)整組織結(jié)構(gòu)的團(tuán)隊(duì)。簡(jiǎn)單任務(wù)用單人模式提高效率,復(fù)雜任務(wù)用團(tuán)隊(duì)模式提高質(zhì)量。
MiroFlow框架則專注于"流程標(biāo)準(zhǔn)化",它像一個(gè)現(xiàn)代化的生產(chǎn)線,將研究過(guò)程分解成標(biāo)準(zhǔn)化的步驟,每個(gè)步驟都有專門(mén)的處理模塊。這種方法特別適合需要處理大量類似任務(wù)的場(chǎng)景,能夠保證質(zhì)量的一致性。
在學(xué)術(shù)研究領(lǐng)域,華為團(tuán)隊(duì)還發(fā)現(xiàn)了幾個(gè)有趣的協(xié)作模式創(chuàng)新。OWL系統(tǒng)采用了"即插即用"的執(zhí)行器設(shè)計(jì),就像樂(lè)高積木一樣,可以根據(jù)需要添加新的專業(yè)能力。如果需要處理法律文件,就插入法律分析模塊;如果需要分析財(cái)務(wù)數(shù)據(jù),就插入財(cái)務(wù)分析模塊。這種設(shè)計(jì)讓系統(tǒng)具有很強(qiáng)的擴(kuò)展性。
CoA項(xiàng)目則探索了"角色條件化"的單模型方案,它訓(xùn)練一個(gè)AI模型具備多種角色切換的能力。同一個(gè)AI可以在需要時(shí)變身為搜索專家、分析專家或?qū)懽鲗<?。這就像訓(xùn)練一個(gè)多才多藝的演員,能夠在同一部戲中扮演多個(gè)不同的角色。
在多智能體協(xié)作訓(xùn)練方面,研究團(tuán)隊(duì)面臨了更加復(fù)雜的挑戰(zhàn)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)主要處理單個(gè)智能體的學(xué)習(xí)問(wèn)題,但當(dāng)多個(gè)AI需要協(xié)作時(shí),每個(gè)AI的學(xué)習(xí)都會(huì)影響其他AI的環(huán)境,形成一個(gè)動(dòng)態(tài)變化的學(xué)習(xí)場(chǎng)景。
MHGPO項(xiàng)目創(chuàng)新性地解決了多智能體信用分配的問(wèn)題。在一個(gè)三人研究小組中(查詢重寫(xiě)員、信息排序員、答案生成員),如果最終研究質(zhì)量很高,如何公平地獎(jiǎng)勵(lì)每個(gè)成員的貢獻(xiàn)?MHGPO設(shè)計(jì)了一套"群體相對(duì)優(yōu)勢(shì)"的評(píng)估機(jī)制,通過(guò)比較不同組合的表現(xiàn)來(lái)評(píng)估每個(gè)成員的價(jià)值貢獻(xiàn)。
MMOA-RAG項(xiàng)目則采用了更傳統(tǒng)但穩(wěn)定的"集中訓(xùn)練-分散執(zhí)行"模式。就像一個(gè)球隊(duì)的訓(xùn)練:平時(shí)大家一起訓(xùn)練,教練能夠觀察到每個(gè)隊(duì)員的表現(xiàn)和相互配合,但比賽時(shí)每個(gè)隊(duì)員要根據(jù)場(chǎng)上情況獨(dú)立決策。這種方法在多智能體協(xié)作中表現(xiàn)出了很好的穩(wěn)定性。
這些協(xié)作機(jī)制的發(fā)展趨勢(shì)表明,未來(lái)的AI研究助手可能不再是單一的大模型,而是由多個(gè)專業(yè)化模塊組成的智能團(tuán)隊(duì)。每個(gè)模塊都有自己的專長(zhǎng),但能夠通過(guò)標(biāo)準(zhǔn)化的接口進(jìn)行協(xié)作。這種發(fā)展方向不僅能夠提高性能,還能夠降低開(kāi)發(fā)和維護(hù)的成本。
五、能力測(cè)試的新標(biāo)準(zhǔn):從考試到實(shí)戰(zhàn)
傳統(tǒng)的AI能力測(cè)試就像學(xué)校考試,主要考查記憶和基礎(chǔ)技能。但對(duì)于AI研究助手來(lái)說(shuō),我們需要的是更接近實(shí)際工作場(chǎng)景的能力評(píng)估,就像從紙上談兵轉(zhuǎn)向?qū)崙?zhàn)演練。華為團(tuán)隊(duì)的研究系統(tǒng)地分析了當(dāng)前用于評(píng)估深度研究系統(tǒng)的各種基準(zhǔn)測(cè)試,發(fā)現(xiàn)了一個(gè)清晰的演進(jìn)趨勢(shì)。
最早期的測(cè)試主要關(guān)注問(wèn)答能力。HotpotQA和2WikiMultiHopQA這類基準(zhǔn)測(cè)試就像高考的閱讀理解題,需要AI從給定的文章中找到信息并進(jìn)行推理。這些測(cè)試的價(jià)值在于驗(yàn)證AI的基礎(chǔ)理解和推理能力,但它們都是在一個(gè)封閉、干凈的環(huán)境中進(jìn)行,就像在無(wú)菌實(shí)驗(yàn)室中測(cè)試藥物效果。
隨著AI能力的提升,測(cè)試環(huán)境開(kāi)始向真實(shí)世界靠攏。BrowseComp基準(zhǔn)測(cè)試讓AI直接在真實(shí)的互聯(lián)網(wǎng)上搜索信息來(lái)回答問(wèn)題,這就像讓駕校學(xué)員直接上路考試而不是在封閉場(chǎng)地練車。這種測(cè)試更能反映AI在實(shí)際應(yīng)用中的表現(xiàn),但也帶來(lái)了更多的不確定因素:網(wǎng)站可能無(wú)法訪問(wèn),信息可能已經(jīng)過(guò)時(shí),搜索結(jié)果可能包含誤導(dǎo)性內(nèi)容。
InfoDeepSeek基準(zhǔn)測(cè)試引入了一個(gè)重要?jiǎng)?chuàng)新:虛假前提問(wèn)題。這類測(cè)試專門(mén)設(shè)計(jì)一些基于錯(cuò)誤假設(shè)的問(wèn)題,看AI是否能夠識(shí)別并拒絕回答,而不是胡亂編造答案。這就像測(cè)試一個(gè)醫(yī)生面對(duì)無(wú)法診斷的癥狀時(shí),是否能夠誠(chéng)實(shí)地承認(rèn)"需要進(jìn)一步檢查"而不是隨意下結(jié)論。
多模態(tài)能力的測(cè)試代表了另一個(gè)重要發(fā)展方向。MMSearch和MMDocIR等基準(zhǔn)測(cè)試不僅要求AI處理文字信息,還要能夠理解圖片、圖表、視頻等多種媒體形式。MM-BrowseComp更進(jìn)一步,要求AI在瀏覽網(wǎng)頁(yè)時(shí)能夠理解頁(yè)面中的圖片和視頻內(nèi)容,并將視覺(jué)信息與文字信息結(jié)合起來(lái)回答問(wèn)題。這就像測(cè)試一個(gè)新聞?dòng)浾卟粌H要會(huì)寫(xiě)文章,還要能夠分析照片和視頻素材。
在長(zhǎng)文本生成能力的測(cè)試方面,DeepResearch Bench代表了當(dāng)前最高標(biāo)準(zhǔn)。它包含100個(gè)博士級(jí)別的研究任務(wù),要求AI不僅要找到相關(guān)信息,還要組織成結(jié)構(gòu)完整、論證嚴(yán)密的研究報(bào)告。測(cè)試采用了兩套評(píng)估標(biāo)準(zhǔn):RACE標(biāo)準(zhǔn)關(guān)注內(nèi)容的全面性和深度,F(xiàn)ACT標(biāo)準(zhǔn)則檢驗(yàn)引用的準(zhǔn)確性和可信度。這就像從簡(jiǎn)單的問(wèn)答題升級(jí)到撰寫(xiě)學(xué)術(shù)論文的水平。
領(lǐng)域?qū)I(yè)化測(cè)試展現(xiàn)了AI研究助手向?qū)嵱没l(fā)展的趨勢(shì)。Xbench專注于招聘和營(yíng)銷等商業(yè)場(chǎng)景,測(cè)試AI是否能夠勝任具體的職業(yè)任務(wù)。Finance Agent Benchmark和FinGAIA專門(mén)測(cè)試金融領(lǐng)域的研究能力,要求AI能夠分析財(cái)務(wù)數(shù)據(jù)、理解市場(chǎng)趨勢(shì)、評(píng)估投資風(fēng)險(xiǎn)。這些測(cè)試就像專業(yè)資格考試,驗(yàn)證AI是否具備在特定領(lǐng)域工作的能力。
τ?-Bench引入了一個(gè)特別有趣的測(cè)試概念:雙控制環(huán)境。在這種測(cè)試中,AI不是獨(dú)自完成任務(wù),而是需要與人類用戶協(xié)作,雙方都能使用工具和影響環(huán)境。這就像測(cè)試一個(gè)技術(shù)支持人員,不僅要能夠診斷問(wèn)題,還要能夠指導(dǎo)用戶進(jìn)行相應(yīng)操作,處理用戶的反饋和新情況。
OdysseyBench代表了最接近實(shí)際工作場(chǎng)景的測(cè)試標(biāo)準(zhǔn)。它設(shè)計(jì)了跨越Word、Excel、PDF、郵件和日歷等多個(gè)辦公應(yīng)用的長(zhǎng)期任務(wù),要求AI在數(shù)小時(shí)甚至數(shù)天的時(shí)間跨度內(nèi)協(xié)調(diào)處理復(fù)雜的工作流程。這就像讓AI擔(dān)任一個(gè)項(xiàng)目經(jīng)理,不僅要完成單個(gè)任務(wù),還要管理整個(gè)項(xiàng)目的進(jìn)度和資源。
這些測(cè)試標(biāo)準(zhǔn)的演進(jìn)反映了AI研究助手技術(shù)的快速發(fā)展。從最初的簡(jiǎn)單問(wèn)答,到現(xiàn)在的多模態(tài)、長(zhǎng)期、專業(yè)化任務(wù)處理,測(cè)試復(fù)雜度的提升推動(dòng)了技術(shù)能力的持續(xù)進(jìn)步。同時(shí),這些測(cè)試也揭示了當(dāng)前技術(shù)仍然面臨的挑戰(zhàn):如何在開(kāi)放環(huán)境中保持穩(wěn)定性,如何處理多樣化的專業(yè)需求,如何在長(zhǎng)期任務(wù)中保持連貫性和準(zhǔn)確性。
華為團(tuán)隊(duì)的研究指出,未來(lái)的測(cè)試標(biāo)準(zhǔn)需要更加關(guān)注幾個(gè)新興方向:首先是魯棒性和安全性測(cè)試,確保AI在面對(duì)惡意信息或攻擊時(shí)能夠保持正確判斷;其次是適應(yīng)性測(cè)試,驗(yàn)證AI是否能夠從用戶反饋中學(xué)習(xí)并改進(jìn)表現(xiàn);最后是倫理和責(zé)任測(cè)試,確保AI的研究行為符合學(xué)術(shù)道德和社會(huì)責(zé)任要求。
總的來(lái)說(shuō),AI研究助手的能力評(píng)估正在從實(shí)驗(yàn)室測(cè)試向?qū)嶋H應(yīng)用場(chǎng)景轉(zhuǎn)變,從單一技能考核向綜合能力評(píng)估發(fā)展,從靜態(tài)測(cè)試向動(dòng)態(tài)交互測(cè)試演進(jìn)。這種變化不僅推動(dòng)了技術(shù)進(jìn)步,也為AI研究助手的實(shí)際應(yīng)用奠定了更堅(jiān)實(shí)的基礎(chǔ)。
六、技術(shù)前景與現(xiàn)實(shí)意義:從實(shí)驗(yàn)室到日常生活
華為團(tuán)隊(duì)這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身,它描繪了一個(gè)AI研究助手大規(guī)模普及的未來(lái)圖景。在這個(gè)圖景中,每個(gè)人都可能擁有一個(gè)專業(yè)的研究伙伴,幫助處理工作和生活中遇到的復(fù)雜信息需求。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究解決了AI研究助手從"能用"到"好用"的關(guān)鍵問(wèn)題。過(guò)去的AI助手就像一個(gè)只會(huì)背書(shū)的學(xué)生,雖然知道很多事實(shí),但面對(duì)新問(wèn)題時(shí)往往束手無(wú)策。而通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的AI研究助手更像一個(gè)經(jīng)驗(yàn)豐富的研究員,不僅知識(shí)豐富,更重要的是具備了探索未知、解決問(wèn)題的思維方式。
這種能力提升帶來(lái)的應(yīng)用前景非常廣闊。在教育領(lǐng)域,AI研究助手可以成為學(xué)生的個(gè)人導(dǎo)師,不僅回答問(wèn)題,還能指導(dǎo)學(xué)生如何進(jìn)行深入研究,培養(yǎng)批判性思維。在商業(yè)環(huán)境中,它可以幫助企業(yè)快速分析市場(chǎng)趨勢(shì)、競(jìng)爭(zhēng)對(duì)手情況、行業(yè)發(fā)展動(dòng)態(tài),為決策提供有力支持。在科研工作中,它可以協(xié)助研究人員進(jìn)行文獻(xiàn)綜述、數(shù)據(jù)分析、假設(shè)驗(yàn)證,大大提高研究效率。
對(duì)普通用戶來(lái)說(shuō),這項(xiàng)技術(shù)可能帶來(lái)生活方式的顯著改變。購(gòu)房時(shí),AI可以幫你研究目標(biāo)區(qū)域的發(fā)展規(guī)劃、交通狀況、教育資源、房?jī)r(jià)走勢(shì);投資時(shí),可以分析不同理財(cái)產(chǎn)品的風(fēng)險(xiǎn)收益、市場(chǎng)前景、監(jiān)管政策;甚至規(guī)劃假期時(shí),也可以綜合分析目的地的天氣、文化、美食、交通、住宿等各方面信息,制定最優(yōu)的行程安排。
華為團(tuán)隊(duì)的研究特別強(qiáng)調(diào)了系統(tǒng)性和工程化的重要性。他們發(fā)現(xiàn),要讓AI研究助手真正實(shí)用,不僅需要先進(jìn)的算法,更需要完整的技術(shù)棧支撐。這包括數(shù)據(jù)處理、模型訓(xùn)練、系統(tǒng)部署、用戶交互、安全保障等各個(gè)環(huán)節(jié)的協(xié)調(diào)配合。這種系統(tǒng)性的思考方式為整個(gè)行業(yè)提供了寶貴的借鑒。
在數(shù)據(jù)隱私和安全方面,研究團(tuán)隊(duì)也考慮了實(shí)際部署中可能遇到的挑戰(zhàn)。AI研究助手需要訪問(wèn)大量的在線信息,同時(shí)也可能處理用戶的敏感數(shù)據(jù)。如何在提供優(yōu)質(zhì)服務(wù)的同時(shí)保護(hù)用戶隱私,如何防范惡意信息的影響,如何確保AI不被濫用,這些都是技術(shù)發(fā)展必須面對(duì)的問(wèn)題。
研究團(tuán)隊(duì)提出的多智能體協(xié)作框架也具有重要的現(xiàn)實(shí)意義。在復(fù)雜的商業(yè)環(huán)境中,不同的任務(wù)往往需要不同的專業(yè)知識(shí)。通過(guò)將大型AI系統(tǒng)分解為多個(gè)專業(yè)化的子系統(tǒng),不僅可以提高處理效率,還能夠降低維護(hù)成本,提高系統(tǒng)的可擴(kuò)展性。這種模塊化的設(shè)計(jì)理念可能成為未來(lái)AI系統(tǒng)架構(gòu)的主流方向。
從產(chǎn)業(yè)發(fā)展的角度來(lái)看,這項(xiàng)研究可能推動(dòng)AI應(yīng)用從消費(fèi)級(jí)向?qū)I(yè)級(jí)的轉(zhuǎn)變。目前的AI助手主要服務(wù)于簡(jiǎn)單的查詢和對(duì)話需求,而具備深度研究能力的AI助手將能夠承擔(dān)更復(fù)雜、更有價(jià)值的工作任務(wù)。這可能催生新的商業(yè)模式和服務(wù)形態(tài),比如專業(yè)的AI研究服務(wù)、定制化的知識(shí)分析平臺(tái)、智能化的決策支持系統(tǒng)等。
技術(shù)標(biāo)準(zhǔn)化也是這項(xiàng)研究的重要貢獻(xiàn)之一。華為團(tuán)隊(duì)系統(tǒng)梳理了AI研究助手的技術(shù)框架、評(píng)估標(biāo)準(zhǔn)、實(shí)施方法,為行業(yè)發(fā)展提供了統(tǒng)一的參考依據(jù)。這有助于避免重復(fù)開(kāi)發(fā),促進(jìn)技術(shù)積累,加速整個(gè)行業(yè)的進(jìn)步。
當(dāng)然,任何新技術(shù)的發(fā)展都伴隨著挑戰(zhàn)和風(fēng)險(xiǎn)。AI研究助手的普及可能對(duì)傳統(tǒng)的信息服務(wù)行業(yè)產(chǎn)生沖擊,改變?nèi)藗儷@取和處理信息的方式。如何確保技術(shù)發(fā)展的普惠性,如何幫助傳統(tǒng)行業(yè)轉(zhuǎn)型升級(jí),如何培養(yǎng)人們與AI協(xié)作的新技能,這些都需要全社會(huì)的共同努力。
展望未來(lái),華為團(tuán)隊(duì)的這項(xiàng)研究為AI技術(shù)發(fā)展指明了一個(gè)重要方向:從簡(jiǎn)單的模式識(shí)別向復(fù)雜的認(rèn)知推理轉(zhuǎn)變,從被動(dòng)的信息檢索向主動(dòng)的知識(shí)發(fā)現(xiàn)轉(zhuǎn)變,從單一的任務(wù)執(zhí)行向綜合的問(wèn)題解決轉(zhuǎn)變。這種轉(zhuǎn)變不僅是技術(shù)層面的進(jìn)步,更代表了AI向真正智能化邁進(jìn)的重要步伐。
說(shuō)到底,這項(xiàng)研究的最大價(jià)值在于,它讓我們看到了AI技術(shù)發(fā)展的新可能性。在不遠(yuǎn)的將來(lái),每個(gè)人都可能擁有一個(gè)專業(yè)、可靠、高效的研究伙伴,幫助我們更好地理解世界、解決問(wèn)題、做出決策。這不僅會(huì)提高我們的工作效率,更可能改變我們思考和學(xué)習(xí)的方式,讓知識(shí)獲取和應(yīng)用變得更加民主化和普及化。當(dāng)然,這個(gè)美好愿景的實(shí)現(xiàn)還需要時(shí)間和努力,但華為團(tuán)隊(duì)的研究已經(jīng)為我們展示了通向這個(gè)未來(lái)的清晰路徑。
Q&A
Q1:強(qiáng)化學(xué)習(xí)訓(xùn)練的AI研究助手與傳統(tǒng)AI助手有什么本質(zhì)區(qū)別?
A:傳統(tǒng)AI助手就像只會(huì)背標(biāo)準(zhǔn)答案的學(xué)生,主要通過(guò)模仿人類提供的示例來(lái)學(xué)習(xí),面對(duì)新問(wèn)題時(shí)容易束手無(wú)策。而強(qiáng)化學(xué)習(xí)訓(xùn)練的AI研究助手更像經(jīng)驗(yàn)豐富的研究員,它通過(guò)在真實(shí)環(huán)境中不斷嘗試、犯錯(cuò)、改正來(lái)學(xué)習(xí),具備探索未知、處理復(fù)雜多步驟任務(wù)的能力,能夠主動(dòng)搜索信息、分析證據(jù)、調(diào)整策略,最終生成高質(zhì)量的研究報(bào)告。
Q2:華為團(tuán)隊(duì)提出的多智能體協(xié)作模式是如何工作的?
A:這種模式就像組建一個(gè)專業(yè)研究團(tuán)隊(duì),不同的AI承擔(dān)不同角色:有負(fù)責(zé)制定研究計(jì)劃的"計(jì)劃員",有負(fù)責(zé)協(xié)調(diào)任務(wù)分配的"協(xié)調(diào)員",還有專門(mén)執(zhí)行搜索、分析、寫(xiě)作等具體工作的"執(zhí)行員"。每個(gè)AI都有自己的專長(zhǎng),通過(guò)標(biāo)準(zhǔn)化接口進(jìn)行協(xié)作。比如MHGPO項(xiàng)目中的三人小組包括查詢重寫(xiě)員、信息排序員和答案生成員,它們通過(guò)"群體相對(duì)優(yōu)勢(shì)"機(jī)制來(lái)評(píng)估和改進(jìn)各自的貢獻(xiàn)。
Q3:普通用戶什么時(shí)候能用上這種AI研究助手?
A:雖然華為團(tuán)隊(duì)的研究還主要停留在技術(shù)框架層面,但類似技術(shù)已經(jīng)開(kāi)始在一些產(chǎn)品中出現(xiàn)。OpenAI、Google、Perplexity等公司都推出了具備深度搜索能力的AI助手。預(yù)計(jì)在未來(lái)2-3年內(nèi),具備基本深度研究能力的AI助手將逐漸普及,能夠幫助用戶處理購(gòu)房分析、投資決策、學(xué)習(xí)研究等復(fù)雜任務(wù)。不過(guò)要達(dá)到論文中描述的完整能力水平,可能還需要更長(zhǎng)時(shí)間的技術(shù)成熟和優(yōu)化。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。