當(dāng)我們使用ChatGPT或Claude等AI助手時(shí),常常會(huì)遇到一個(gè)令人沮喪的現(xiàn)實(shí):這些最先進(jìn)的AI系統(tǒng)不僅需要付費(fèi)訂閱,背后還依賴著大量昂貴的專有工具和API接口。對(duì)于想要深入研究或開(kāi)發(fā)AI助手的科研人員來(lái)說(shuō),這無(wú)疑是一道高昂的門檻。不過(guò),騰訊AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)最近發(fā)布了一項(xiàng)突破性成果,有望徹底改變這一現(xiàn)狀。
這項(xiàng)由騰訊AI實(shí)驗(yàn)室方天慶、張志松、王曉陽(yáng)、王瑞、秦燦、萬(wàn)雨軒、馬俊宇、張策、陳嘉奇、李曦云、張洪明、米海濤、于東等研究人員共同完成的研究成果,于2025年8月1日以技術(shù)報(bào)告的形式在arXiv上發(fā)布,標(biāo)題為《Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training》。研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為"認(rèn)知內(nèi)核-專業(yè)版"(Cognitive Kernel-Pro)的全新智能體框架,這個(gè)框架最大的特點(diǎn)就是完全開(kāi)源且?guī)缀跬耆赓M(fèi)。感興趣的讀者可以通過(guò)GitHub倉(cāng)庫(kù)(https://github.com/Tencent/CognitiveKernel-Pro)獲取完整代碼,或通過(guò)論文鏈接(arXiv:2508.00414v1)查看詳細(xì)技術(shù)報(bào)告。
要理解這項(xiàng)研究的重要性,我們不妨把當(dāng)前的AI助手生態(tài)比作一個(gè)高檔餐廳。在這個(gè)餐廳里,最好的AI助手就像是主廚精心烹制的招牌菜,不僅價(jià)格昂貴,而且制作過(guò)程中使用的許多"調(diào)料"(專有工具和API)都是商業(yè)機(jī)密,普通人無(wú)法獲得完整的"食譜"。即使有些餐廳愿意公開(kāi)部分做法,但關(guān)鍵的調(diào)料仍然需要額外付費(fèi)購(gòu)買,這讓想要在家復(fù)制這道菜的人望而卻步。
騰訊的這項(xiàng)研究就相當(dāng)于提供了一套完整的"家庭烹飪指南",不僅公開(kāi)了所有制作步驟,還盡可能地用免費(fèi)或便宜的替代品來(lái)替換昂貴的專有調(diào)料,讓每個(gè)人都能在自己的"廚房"里制作出媲美高檔餐廳的美味佳肴。更重要的是,他們還訓(xùn)練了一個(gè)專門的"小廚師"(8B參數(shù)的基礎(chǔ)模型),雖然經(jīng)驗(yàn)不如那些資深大廚,但在處理日常烹飪?nèi)蝿?wù)時(shí)表現(xiàn)出色,而且完全免費(fèi)。
一、破解AI助手的三重挑戰(zhàn)
當(dāng)前AI助手領(lǐng)域面臨的問(wèn)題,就像一座被三道高墻圍繞的城堡。第一道墻是"封閉性",最強(qiáng)大的AI助手系統(tǒng)都被大公司牢牢掌控,核心技術(shù)對(duì)外封閉,普通研究者只能望墻興嘆。第二道墻是"依賴性",即使是一些開(kāi)源的AI助手框架,也嚴(yán)重依賴各種付費(fèi)API和專有工具,就像一個(gè)看似免費(fèi)的游戲,但要想真正玩得開(kāi)心卻需要不斷充值購(gòu)買道具。第三道墻是"能力局限性",許多開(kāi)源方案要么功能單一,只能處理特定類型的任務(wù),要么在復(fù)雜任務(wù)面前表現(xiàn)不佳。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI助手就像一個(gè)需要各種專業(yè)工具才能工作的技術(shù)專家。比如,當(dāng)它需要瀏覽網(wǎng)頁(yè)時(shí),可能要調(diào)用Jina Reader這樣的付費(fèi)服務(wù);當(dāng)它需要處理文檔時(shí),又要依賴FireCrawl或Chunkr等商業(yè)工具;當(dāng)它需要進(jìn)行多模態(tài)處理時(shí),還要使用專有的視覺(jué)模型API。這些依賴關(guān)系不僅增加了使用成本,更重要的是限制了研究的可重復(fù)性和普及性。
騰訊團(tuán)隊(duì)意識(shí)到,要真正推動(dòng)AI助手技術(shù)的民主化發(fā)展,就必須打造一個(gè)"自給自足"的生態(tài)系統(tǒng)。這個(gè)系統(tǒng)不能像傳統(tǒng)方案那樣依賴外部的專有工具,而應(yīng)該最大化地利用大語(yǔ)言模型和視覺(jué)語(yǔ)言模型自身的能力,通過(guò)巧妙的框架設(shè)計(jì)和訓(xùn)練策略,實(shí)現(xiàn)接近甚至超越那些依賴昂貴工具的系統(tǒng)的性能。
更具挑戰(zhàn)性的是,大多數(shù)現(xiàn)有的開(kāi)源AI助手主要依靠調(diào)用外部API來(lái)工作,缺乏專門訓(xùn)練的"智能體基礎(chǔ)模型"。這就像是一個(gè)沒(méi)有接受過(guò)專業(yè)訓(xùn)練的新手,只能依靠各種工具書(shū)和外部幫助來(lái)完成工作,而不是憑借自身的專業(yè)知識(shí)和技能。騰訊團(tuán)隊(duì)認(rèn)為,要構(gòu)建真正優(yōu)秀的AI助手,不僅需要好的框架設(shè)計(jì),還需要專門為智能體任務(wù)優(yōu)化的基礎(chǔ)模型。
二、認(rèn)知內(nèi)核-專業(yè)版的創(chuàng)新架構(gòu)
騰訊團(tuán)隊(duì)設(shè)計(jì)的認(rèn)知內(nèi)核-專業(yè)版框架,就像一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理帶領(lǐng)著幾個(gè)專業(yè)技術(shù)人員組成的團(tuán)隊(duì)。在這個(gè)團(tuán)隊(duì)中,主智能體扮演項(xiàng)目經(jīng)理的角色,負(fù)責(zé)理解用戶需求、制定總體計(jì)劃、分配任務(wù)給專業(yè)人員,并整合各方反饋形成最終結(jié)果。而網(wǎng)絡(luò)智能體、文件智能體等子智能體則像是各個(gè)專業(yè)領(lǐng)域的技術(shù)專家,各司其職,專注于自己擅長(zhǎng)的任務(wù)。
這種設(shè)計(jì)的巧妙之處在于,所有的智能體都基于同一個(gè)"認(rèn)知內(nèi)核"構(gòu)建,就像同一家公司培養(yǎng)出來(lái)的員工,擁有統(tǒng)一的工作方法和溝通語(yǔ)言。每個(gè)智能體的輸入都是一個(gè)任務(wù)描述字符串,輸出也是一個(gè)回應(yīng)字符串,而中間的所有操作都通過(guò)Python代碼來(lái)執(zhí)行。這種統(tǒng)一的接口設(shè)計(jì)大大簡(jiǎn)化了系統(tǒng)的復(fù)雜性,也讓不同智能體之間的協(xié)作變得更加順暢。
主智能體的工作方式就像一個(gè)善于統(tǒng)籌規(guī)劃的管理者。當(dāng)面臨復(fù)雜任務(wù)時(shí),它首先會(huì)分析問(wèn)題的各個(gè)方面,將大任務(wù)分解成可管理的小任務(wù),然后決定哪些任務(wù)需要交給專門的子智能體處理。比如,如果用戶詢問(wèn)某個(gè)學(xué)術(shù)會(huì)議的最新論文信息,主智能體可能會(huì)先讓網(wǎng)絡(luò)智能體去搜索和瀏覽相關(guān)網(wǎng)站,然后讓文件智能體分析下載的PDF文檔,最后自己負(fù)責(zé)整合這些信息并生成綜合回答。
網(wǎng)絡(luò)智能體就像一個(gè)經(jīng)驗(yàn)豐富的網(wǎng)絡(luò)調(diào)研員,配備了基于Playwright的自動(dòng)化瀏覽器。它能夠像人類用戶一樣瀏覽網(wǎng)頁(yè),可以點(diǎn)擊鏈接、填寫表單、滾動(dòng)頁(yè)面、截圖保存等。特別有趣的是,網(wǎng)絡(luò)智能體有兩種"視覺(jué)模式":平時(shí)它主要依靠網(wǎng)頁(yè)的文本結(jié)構(gòu)樹(shù)來(lái)理解頁(yè)面內(nèi)容,這樣既高效又節(jié)省資源;但當(dāng)遇到復(fù)雜的圖表、圖片或者文本結(jié)構(gòu)無(wú)法準(zhǔn)確描述的頁(yè)面時(shí),它可以切換到"截圖模式",調(diào)用多模態(tài)語(yǔ)言模型來(lái)分析頁(yè)面的視覺(jué)內(nèi)容。
文件智能體則像一個(gè)專業(yè)的文檔分析師,能夠處理各種格式的文件,包括PDF文檔、Excel表格、CSV數(shù)據(jù)文件以及各種圖片格式。考慮到某些文檔可能非常龐大,文件智能體采用了分頁(yè)處理的策略,可以逐頁(yè)或逐節(jié)分析內(nèi)容,避免一次性加載過(guò)多信息導(dǎo)致系統(tǒng)負(fù)擔(dān)過(guò)重。同時(shí),它也具備類似網(wǎng)絡(luò)智能體的雙模式能力,既可以提取文本內(nèi)容進(jìn)行分析,也可以對(duì)文檔頁(yè)面進(jìn)行視覺(jué)理解。
整個(gè)框架最大的特色在于極簡(jiǎn)的外部依賴。除了必需的Google搜索API(這幾乎是所有信息檢索類智能體的標(biāo)配)之外,系統(tǒng)幾乎不依賴任何專有工具。所有的網(wǎng)頁(yè)瀏覽、文檔處理、代碼執(zhí)行等功能都通過(guò)開(kāi)源工具和智能體自身的能力來(lái)實(shí)現(xiàn)。這種設(shè)計(jì)哲學(xué)的核心是相信大語(yǔ)言模型和視覺(jué)語(yǔ)言模型已經(jīng)具備了強(qiáng)大的推理和代碼生成能力,關(guān)鍵是要通過(guò)合適的框架設(shè)計(jì)來(lái)充分發(fā)揮這些能力。
三、讓AI助手學(xué)會(huì)自我反思和團(tuán)隊(duì)決策
認(rèn)知內(nèi)核-專業(yè)版不僅在基礎(chǔ)架構(gòu)上有所創(chuàng)新,在推理時(shí)的優(yōu)化策略上也體現(xiàn)了研究團(tuán)隊(duì)的深度思考。他們開(kāi)發(fā)了兩個(gè)關(guān)鍵的推理時(shí)優(yōu)化機(jī)制:反思機(jī)制和投票機(jī)制,這兩個(gè)機(jī)制就像給AI助手配備了"自我檢查"和"集體決策"的能力。
反思機(jī)制的工作原理就像一個(gè)負(fù)責(zé)任的員工在提交工作成果前進(jìn)行的自我檢查。當(dāng)AI助手完成一個(gè)任務(wù)后,它不會(huì)立即給出答案,而是會(huì)回顧整個(gè)解決過(guò)程,檢查自己的推理鏈和最終答案是否合理。這個(gè)檢查過(guò)程遵循四個(gè)標(biāo)準(zhǔn):首先確保答案不是空白的;其次檢查答案是否與問(wèn)題相關(guān)且合理;然后驗(yàn)證執(zhí)行過(guò)程中是否出現(xiàn)錯(cuò)誤或失??;最后評(píng)估推理依據(jù)是否可靠、邏輯是否嚴(yán)密。
如果反思過(guò)程中發(fā)現(xiàn)任何問(wèn)題,AI助手就會(huì)重新嘗試解決任務(wù),直到得到滿意的答案或達(dá)到預(yù)設(shè)的嘗試次數(shù)上限。這種機(jī)制有效減少了因?yàn)殡S機(jī)性或一時(shí)疏忽導(dǎo)致的錯(cuò)誤答案,特別是在網(wǎng)絡(luò)瀏覽這類本身就具有不確定性的任務(wù)中效果顯著。
投票機(jī)制則更像是一個(gè)民主決策過(guò)程。系統(tǒng)會(huì)針對(duì)同一個(gè)問(wèn)題進(jìn)行多次獨(dú)立的嘗試,然后比較這些不同嘗試的結(jié)果,選出最優(yōu)答案。這種方法的妙處在于,它不是簡(jiǎn)單地選擇出現(xiàn)頻率最高的答案,而是會(huì)綜合考慮每個(gè)答案的質(zhì)量和可信度。比如,當(dāng)詢問(wèn)某位歌手的最早專輯時(shí),如果一次嘗試找到了2000年代的專輯,另一次嘗試找到了1990年代的專輯,投票機(jī)制能夠識(shí)別出1990年代的專輯更符合"最早"的要求。
這兩個(gè)機(jī)制的結(jié)合使用,就像給AI助手配備了雙重保險(xiǎn)。反思機(jī)制確保每次嘗試的質(zhì)量,投票機(jī)制通過(guò)多次嘗試的比較來(lái)提高最終答案的可靠性。在實(shí)際測(cè)試中,這種策略顯著提升了系統(tǒng)在復(fù)雜任務(wù)上的表現(xiàn),特別是那些需要多步推理和外部信息整合的任務(wù)。
四、構(gòu)建智能體專用的訓(xùn)練數(shù)據(jù)寶庫(kù)
訓(xùn)練一個(gè)優(yōu)秀的AI助手,就像培養(yǎng)一個(gè)全能型人才,需要在多個(gè)領(lǐng)域都有扎實(shí)的基礎(chǔ)。騰訊團(tuán)隊(duì)將智能體的核心能力分為三大類:網(wǎng)絡(luò)信息處理、文件分析處理和通用推理能力。針對(duì)每一類能力,他們都設(shè)計(jì)了專門的訓(xùn)練數(shù)據(jù)構(gòu)建策略。
在網(wǎng)絡(luò)信息處理方面,團(tuán)隊(duì)開(kāi)發(fā)了一種創(chuàng)新的"多跳信息整合"數(shù)據(jù)構(gòu)建方法。這種方法的核心思想是創(chuàng)造那些需要從多個(gè)網(wǎng)頁(yè)源整合信息才能回答的復(fù)雜問(wèn)題。比如,不是簡(jiǎn)單地問(wèn)"摩爾多瓦的GDP是多少",而是設(shè)計(jì)類似"2014年到2023年期間,摩爾多瓦哪一年的人均GDP增長(zhǎng)率最高,那一年的GDP密度(每平方公里GDP)是多少"這樣的復(fù)合問(wèn)題。
這類問(wèn)題的設(shè)計(jì)巧思在于,它需要AI助手首先搜索摩爾多瓦不同年份的GDP數(shù)據(jù),然后獲取人口數(shù)據(jù)計(jì)算人均GDP,接著計(jì)算各年的增長(zhǎng)率找出峰值年份,最后還要獲取國(guó)土面積信息計(jì)算那一年的GDP密度。整個(gè)過(guò)程涉及數(shù)據(jù)收集、數(shù)學(xué)計(jì)算、排序比較等多個(gè)步驟,是對(duì)AI助手綜合能力的全面考驗(yàn)。
為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)基于智能體的數(shù)據(jù)生成系統(tǒng)。這個(gè)系統(tǒng)本身就是認(rèn)知內(nèi)核框架的一個(gè)特殊應(yīng)用,專門用于探索網(wǎng)絡(luò)、發(fā)現(xiàn)有趣的信息組合,并據(jù)此構(gòu)造有挑戰(zhàn)性的問(wèn)題。系統(tǒng)會(huì)先生成一個(gè)broad的主題,然后讓智能體在相關(guān)網(wǎng)站上自主探索,收集信息,最后基于收集到的信息構(gòu)造需要跨源信息整合的復(fù)雜問(wèn)題。
在文件處理能力的訓(xùn)練上,團(tuán)隊(duì)整合了多個(gè)現(xiàn)有的文檔分析數(shù)據(jù)集,包括PDF文檔理解、表格數(shù)據(jù)分析等。但他們不是簡(jiǎn)單地使用這些數(shù)據(jù)集,而是將其轉(zhuǎn)換為符合智能體工作流程的格式。比如,原本可能是一個(gè)直接的問(wèn)答對(duì),現(xiàn)在被轉(zhuǎn)化為需要智能體先加載文件、然后分析文件內(nèi)容、最后回答問(wèn)題的完整過(guò)程。
通用推理能力的訓(xùn)練數(shù)據(jù)則涵蓋了數(shù)學(xué)推理、邏輯推理、代碼生成和謎題解決等多個(gè)方面。研究團(tuán)隊(duì)特別注重這些推理任務(wù)與智能體實(shí)際工作場(chǎng)景的結(jié)合,比如將數(shù)學(xué)問(wèn)題包裝成需要通過(guò)代碼計(jì)算來(lái)解決的任務(wù),將邏輯推理與信息檢索相結(jié)合等。
整個(gè)訓(xùn)練數(shù)據(jù)的構(gòu)建過(guò)程還引入了一個(gè)巧妙的"提示增強(qiáng)"策略。在數(shù)據(jù)收集階段,系統(tǒng)會(huì)獲得一些中間結(jié)果作為"提示",這些提示能顯著提高訓(xùn)練軌跡收集的成功率。但在實(shí)際訓(xùn)練時(shí),這些提示會(huì)被完全移除,確保模型學(xué)習(xí)的是真正的問(wèn)題解決能力,而不是對(duì)提示的依賴。這種策略有效提高了訓(xùn)練數(shù)據(jù)的質(zhì)量,同時(shí)避免了模型在實(shí)際應(yīng)用中的性能偏差。
五、基于千億參數(shù)模型的軌跡采樣與優(yōu)化
構(gòu)建高質(zhì)量的智能體訓(xùn)練數(shù)據(jù),關(guān)鍵在于生成既正確又高效的解決軌跡。騰訊團(tuán)隊(duì)采用了GPT-4.1作為"導(dǎo)師模型",在認(rèn)知內(nèi)核-專業(yè)版框架內(nèi)生成各種任務(wù)的解決軌跡。這個(gè)過(guò)程就像讓一位經(jīng)驗(yàn)豐富的專家來(lái)演示如何解決各種復(fù)雜問(wèn)題,然后將這些演示過(guò)程記錄下來(lái),用于訓(xùn)練年輕的"學(xué)徒"。
軌跡采樣的過(guò)程充滿了技術(shù)細(xì)節(jié)。對(duì)于每個(gè)構(gòu)建好的查詢-答案對(duì),系統(tǒng)會(huì)讓GPT-4.1在認(rèn)知內(nèi)核框架內(nèi)嘗試解決,記錄下整個(gè)解決過(guò)程中的每一步思考、每一次工具調(diào)用、每一個(gè)中間結(jié)果。但不是所有的嘗試都會(huì)成功,有些可能因?yàn)榫W(wǎng)絡(luò)問(wèn)題失敗,有些可能因?yàn)橥评礤e(cuò)誤得出錯(cuò)誤答案。
為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量,研究團(tuán)隊(duì)實(shí)施了基于相似度匹配的拒絕采樣策略。具體來(lái)說(shuō),他們使用LangChain的評(píng)估工具,再次以GPT-4.1為后端,來(lái)判斷生成的答案是否與標(biāo)準(zhǔn)答案在語(yǔ)義上一致。只有通過(guò)這個(gè)質(zhì)量檢查的軌跡才會(huì)被納入最終的訓(xùn)練集。對(duì)于那些失敗的嘗試,系統(tǒng)會(huì)重新采樣,每個(gè)問(wèn)題最多嘗試三次,確保最終收集到足夠數(shù)量的高質(zhì)量軌跡。
在涉及提示增強(qiáng)的數(shù)據(jù)收集中,還有一個(gè)特殊的處理步驟。系統(tǒng)會(huì)自動(dòng)識(shí)別和移除所有被特殊標(biāo)記包圍的提示內(nèi)容,確保最終的訓(xùn)練數(shù)據(jù)不包含任何"作弊"信息。這種處理保證了模型訓(xùn)練的公平性,讓模型學(xué)習(xí)的是真正的問(wèn)題解決策略,而不是對(duì)額外信息的依賴。
最終的訓(xùn)練數(shù)據(jù)集規(guī)模相當(dāng)可觀,包含了超過(guò)15000個(gè)查詢和近10萬(wàn)個(gè)執(zhí)行步驟。這些數(shù)據(jù)涵蓋了網(wǎng)絡(luò)瀏覽、文件處理、數(shù)學(xué)推理、代碼生成等多個(gè)領(lǐng)域,為訓(xùn)練一個(gè)全能型的智能體基礎(chǔ)模型提供了堅(jiān)實(shí)的基礎(chǔ)。
六、8B參數(shù)模型的驚艷表現(xiàn)
基于收集到的高質(zhì)量訓(xùn)練數(shù)據(jù),騰訊團(tuán)隊(duì)在Qwen-3-8B模型的基礎(chǔ)上進(jìn)行了專門的智能體能力微調(diào),產(chǎn)生了CK-Pro-8B模型。這個(gè)模型的參數(shù)量只有80億,相比動(dòng)輒數(shù)千億參數(shù)的大型模型來(lái)說(shuō)相當(dāng)輕量,但在智能體任務(wù)上的表現(xiàn)卻令人印象深刻。
在GAIA基準(zhǔn)測(cè)試上,CK-Pro-8B取得了多項(xiàng)突破性成果。GAIA是當(dāng)前最權(quán)威的通用AI助手評(píng)估基準(zhǔn),包含了網(wǎng)絡(luò)瀏覽、文件處理、多模態(tài)理解、復(fù)雜推理等多種任務(wù)類型,分為不同難度等級(jí)。在這個(gè)極具挑戰(zhàn)性的測(cè)試中,CK-Pro-8B在文本專用子集上的Pass@1得分達(dá)到40.3%,Pass@3得分更是達(dá)到49.3%,顯著超越了同等參數(shù)規(guī)模的其他開(kāi)源模型。
更值得關(guān)注的是,CK-Pro-8B在與商業(yè)化程度更高的7B參數(shù)模型對(duì)比中展現(xiàn)出了明顯優(yōu)勢(shì)。相比WebDancer和WebSailor的7B版本,CK-Pro-8B的Pass@1性能提升了約2%,Pass@3性能提升超過(guò)10%。這種提升在AI模型評(píng)估中是相當(dāng)顯著的,特別考慮到智能體任務(wù)的復(fù)雜性和多樣性。
當(dāng)使用反思和投票等推理時(shí)優(yōu)化策略時(shí),CK-Pro-8B的性能還能進(jìn)一步提升。在完整的GAIA開(kāi)發(fā)集上,單純使用CK-Pro-8B的Pass@1得分為32.7%,但結(jié)合投票機(jī)制后可以達(dá)到34.5%,使用Pass@3策略更能達(dá)到38.2%。雖然這個(gè)絕對(duì)分?jǐn)?shù)相比使用Claude-3.7的版本還有差距,但考慮到這是一個(gè)完全開(kāi)源、可本地部署的8B參數(shù)模型,這樣的性能已經(jīng)相當(dāng)令人鼓舞。
特別值得一提的是,在Level 1(基礎(chǔ)難度)的任務(wù)上,CK-Pro-8B的表現(xiàn)尤為出色,Pass@3得分達(dá)到50.9%,這意味著對(duì)于相對(duì)簡(jiǎn)單的智能體任務(wù),這個(gè)輕量模型已經(jīng)能夠提供相當(dāng)可靠的解決方案。這為那些計(jì)算資源有限但希望部署智能體應(yīng)用的用戶提供了一個(gè)非常實(shí)用的選擇。
七、全面對(duì)比:開(kāi)源免費(fèi)方案的新標(biāo)桿
為了充分驗(yàn)證認(rèn)知內(nèi)核-專業(yè)版的實(shí)際效果,騰訊團(tuán)隊(duì)進(jìn)行了全面的對(duì)比實(shí)驗(yàn),將其與當(dāng)前主流的智能體框架進(jìn)行了詳細(xì)比較。這些對(duì)比實(shí)驗(yàn)就像一場(chǎng)"智能體能力大比武",參賽選手既包括閉源的商業(yè)化系統(tǒng),也包括各種開(kāi)源方案。
在閉源系統(tǒng)方面,一些頂級(jí)的商業(yè)化智能體展現(xiàn)出了強(qiáng)勁的性能。比如TraseAgent基于Claude模型達(dá)到了70.3%的平均得分,Deep Research系統(tǒng)也獲得了67.4%的成績(jī)。這些系統(tǒng)代表了當(dāng)前智能體技術(shù)的最高水平,但它們的閉源特性和高昂成本限制了普通用戶的訪問(wèn)。
在開(kāi)源系統(tǒng)的對(duì)比中,情況變得更加有趣。那些依賴付費(fèi)工具的開(kāi)源系統(tǒng),如OWL-Workforce使用Claude-3.7配合Chunkr、FireCrawl等商業(yè)工具,能夠達(dá)到69.1%的優(yōu)秀成績(jī)。但這種性能提升是以額外的工具成本為代價(jià)的,對(duì)于預(yù)算有限的用戶來(lái)說(shuō)并不現(xiàn)實(shí)。
真正的競(jìng)爭(zhēng)焦點(diǎn)在于不使用付費(fèi)工具的開(kāi)源系統(tǒng)對(duì)比。在這個(gè)類別中,認(rèn)知內(nèi)核-專業(yè)版使用Claude-3.7作為后端時(shí),Pass@1得分為57.6%,Pass@3得分達(dá)到70.9%,在所有不使用付費(fèi)工具的開(kāi)源系統(tǒng)中表現(xiàn)最佳。相比之下,SmolAgents等其他開(kāi)源方案的Pass@1得分普遍在50%左右,顯示出認(rèn)知內(nèi)核-專業(yè)版在框架設(shè)計(jì)上的優(yōu)勢(shì)。
更令人鼓舞的是CK-Pro-8B模型的表現(xiàn)。雖然這個(gè)8B參數(shù)的開(kāi)源模型在絕對(duì)性能上還無(wú)法與大型閉源模型競(jìng)爭(zhēng),但它在同等規(guī)模的開(kāi)源模型中確立了新的性能標(biāo)桿。特別是在文本專用任務(wù)上,CK-Pro-8B不僅超越了同等規(guī)模的WebDancer和WebSailor模型,還在某些指標(biāo)上接近了更大規(guī)模模型的性能。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了各個(gè)組件的貢獻(xiàn)。反思機(jī)制的加入能帶來(lái)約1-2%的性能提升,雖然看似不大,但在智能體任務(wù)的評(píng)估中這是相當(dāng)顯著的改善。有趣的是,實(shí)驗(yàn)顯示即使使用開(kāi)源的多模態(tài)模型如Qwen-2.5-VL-72B來(lái)替代GPT-4.1處理圖像任務(wù),性能損失也非常有限,這進(jìn)一步驗(yàn)證了系統(tǒng)對(duì)專有工具依賴的最小化設(shè)計(jì)的有效性。
八、技術(shù)創(chuàng)新背后的深層思考
認(rèn)知內(nèi)核-專業(yè)版的成功并非偶然,而是建立在幾個(gè)關(guān)鍵技術(shù)洞察之上的。首先是"代碼作為行動(dòng)空間"的設(shè)計(jì)哲學(xué)。傳統(tǒng)的智能體系統(tǒng)往往為每種操作定義專門的API接口,這種設(shè)計(jì)雖然看似清晰,但實(shí)際上限制了系統(tǒng)的靈活性和擴(kuò)展性。騰訊團(tuán)隊(duì)選擇讓所有智能體都生成Python代碼來(lái)執(zhí)行操作,這種統(tǒng)一的接口設(shè)計(jì)不僅簡(jiǎn)化了系統(tǒng)架構(gòu),還充分發(fā)揮了大語(yǔ)言模型在代碼生成方面的強(qiáng)大能力。
第二個(gè)關(guān)鍵洞察是"狀態(tài)增強(qiáng)的問(wèn)題解決流程"。簡(jiǎn)單的輸入-輸出模式往往無(wú)法處理復(fù)雜的多步驟任務(wù),認(rèn)知內(nèi)核-專業(yè)版通過(guò)維護(hù)一個(gè)包含已完成任務(wù)、待辦事項(xiàng)、經(jīng)驗(yàn)總結(jié)和重要信息的狀態(tài)字典,讓智能體能夠在長(zhǎng)序列任務(wù)中保持清晰的認(rèn)知。這種設(shè)計(jì)借鑒了人類解決復(fù)雜問(wèn)題時(shí)的認(rèn)知過(guò)程,具有很強(qiáng)的心理學(xué)合理性。
第三個(gè)創(chuàng)新點(diǎn)是"分層模塊化的協(xié)作機(jī)制"。主智能體專注于高層規(guī)劃和任務(wù)分解,子智能體專注于特定領(lǐng)域的專業(yè)操作,這種分工合作的模式既保證了系統(tǒng)的專業(yè)性,又維持了整體的協(xié)調(diào)性。更重要的是,所有智能體都基于相同的基礎(chǔ)架構(gòu),這大大簡(jiǎn)化了系統(tǒng)的維護(hù)和擴(kuò)展。
在訓(xùn)練數(shù)據(jù)構(gòu)建方面,團(tuán)隊(duì)提出的"智能體驅(qū)動(dòng)的數(shù)據(jù)合成"方法也頗具創(chuàng)新性。傳統(tǒng)的數(shù)據(jù)集構(gòu)建往往依賴人工標(biāo)注或簡(jiǎn)單的模板生成,而這種方法讓智能體自主探索網(wǎng)絡(luò)、發(fā)現(xiàn)信息、構(gòu)造問(wèn)題,生成的數(shù)據(jù)不僅多樣性更好,也更貼近實(shí)際應(yīng)用場(chǎng)景。同時(shí),"提示增強(qiáng)的軌跡采樣"策略巧妙地平衡了數(shù)據(jù)收集效率和模型訓(xùn)練質(zhì)量,這種技術(shù)細(xì)節(jié)的考量體現(xiàn)了團(tuán)隊(duì)的工程經(jīng)驗(yàn)和理論洞察。
九、開(kāi)源AI的新里程碑
認(rèn)知內(nèi)核-專業(yè)版的發(fā)布,標(biāo)志著開(kāi)源AI智能體領(lǐng)域的一個(gè)重要里程碑。在此之前,高性能的AI助手幾乎都被大型科技公司壟斷,普通研究者和開(kāi)發(fā)者只能通過(guò)付費(fèi)API的形式來(lái)使用這些能力,這種模式不僅成本高昂,還限制了創(chuàng)新的可能性。
騰訊團(tuán)隊(duì)的這項(xiàng)工作證明了一個(gè)重要觀點(diǎn):通過(guò)精心的框架設(shè)計(jì)和訓(xùn)練策略,完全開(kāi)源的解決方案同樣可以達(dá)到令人滿意的性能水平。CK-Pro-8B模型雖然參數(shù)量相對(duì)較小,但在多項(xiàng)測(cè)試中的表現(xiàn)已經(jīng)足以滿足大多數(shù)實(shí)際應(yīng)用需求。更重要的是,這個(gè)模型可以在普通的GPU服務(wù)器上運(yùn)行,大大降低了部署和使用的門檻。
這種開(kāi)源策略的價(jià)值不僅體現(xiàn)在成本節(jié)約上,更體現(xiàn)在促進(jìn)技術(shù)創(chuàng)新和知識(shí)傳播方面。當(dāng)核心技術(shù)完全開(kāi)放時(shí),全球的研究者都可以在此基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展,這種集體智慧的匯聚往往能產(chǎn)生意想不到的突破。同時(shí),開(kāi)源模式也保證了技術(shù)發(fā)展的透明性和可審查性,這對(duì)于AI技術(shù)的安全發(fā)展具有重要意義。
從更宏觀的角度來(lái)看,認(rèn)知內(nèi)核-專業(yè)版的成功也反映了AI技術(shù)發(fā)展的一個(gè)重要趨勢(shì):隨著基礎(chǔ)模型能力的不斷提升,系統(tǒng)設(shè)計(jì)和訓(xùn)練策略的重要性越來(lái)越突出。單純的模型規(guī)模競(jìng)賽可能已經(jīng)接近天花板,而如何更好地設(shè)計(jì)系統(tǒng)架構(gòu)、構(gòu)建訓(xùn)練數(shù)據(jù)、優(yōu)化推理策略等工程技術(shù)問(wèn)題,將成為決定AI系統(tǒng)實(shí)際效果的關(guān)鍵因素。
十、未來(lái)發(fā)展的無(wú)限可能
雖然認(rèn)知內(nèi)核-專業(yè)版已經(jīng)取得了令人鼓舞的成果,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前系統(tǒng)的局限性和改進(jìn)空間。最明顯的限制是CK-Pro-8B模型在性能上與大型商業(yè)模型還有明顯差距,特別是在處理最復(fù)雜任務(wù)時(shí)的成功率還有待提高。
針對(duì)這個(gè)問(wèn)題,未來(lái)的改進(jìn)方向包括幾個(gè)方面。首先是進(jìn)一步優(yōu)化訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,特別是增加更多需要深度推理和復(fù)雜多步操作的樣本。其次是探索更先進(jìn)的訓(xùn)練策略,比如結(jié)合強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化智能體的決策過(guò)程,或者使用更大規(guī)模的基礎(chǔ)模型來(lái)提升整體能力。
另一個(gè)重要的發(fā)展方向是增強(qiáng)系統(tǒng)的多模態(tài)處理能力。雖然當(dāng)前版本已經(jīng)支持圖像處理,但這種支持主要依賴外部的多模態(tài)模型。未來(lái)的目標(biāo)是開(kāi)發(fā)真正的端到端多模態(tài)智能體基礎(chǔ)模型,能夠無(wú)縫處理文本、圖像、音頻等多種輸入形式。
在應(yīng)用層面,認(rèn)知內(nèi)核-專業(yè)版也有廣闊的擴(kuò)展空間。當(dāng)前系統(tǒng)主要關(guān)注網(wǎng)絡(luò)瀏覽、文件處理和通用推理三大領(lǐng)域,未來(lái)可以增加更多專業(yè)領(lǐng)域的支持,比如科學(xué)計(jì)算、數(shù)據(jù)分析、軟件開(kāi)發(fā)等。同時(shí),框架的模塊化設(shè)計(jì)也為第三方開(kāi)發(fā)者貢獻(xiàn)新的子智能體提供了便利。
更長(zhǎng)遠(yuǎn)來(lái)看,這類開(kāi)源智能體框架可能會(huì)成為構(gòu)建更復(fù)雜AI系統(tǒng)的基礎(chǔ)設(shè)施。就像Linux操作系統(tǒng)成為了互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的重要組成部分一樣,高質(zhì)量的開(kāi)源智能體框架也可能成為未來(lái)AI應(yīng)用生態(tài)的基石。
說(shuō)到底,騰訊AI實(shí)驗(yàn)室的這項(xiàng)研究為我們展示了一種全新的可能性:在AI技術(shù)日益復(fù)雜和昂貴的今天,通過(guò)巧妙的工程設(shè)計(jì)和開(kāi)源協(xié)作,我們?nèi)匀豢梢詷?gòu)建出既強(qiáng)大又accessible的AI系統(tǒng)。認(rèn)知內(nèi)核-專業(yè)版不僅是一個(gè)技術(shù)產(chǎn)品,更是對(duì)AI民主化理念的有力踐行。它告訴我們,最先進(jìn)的AI能力不應(yīng)該被少數(shù)大公司壟斷,而應(yīng)該成為全人類共同的智力財(cái)富。
當(dāng)我們站在AI技術(shù)發(fā)展的十字路口時(shí),像認(rèn)知內(nèi)核-專業(yè)版這樣的開(kāi)源項(xiàng)目為我們指明了一個(gè)充滿希望的方向:通過(guò)開(kāi)放合作、技術(shù)創(chuàng)新和持續(xù)優(yōu)化,我們完全有可能構(gòu)建出一個(gè)更加開(kāi)放、平等、創(chuàng)新的AI未來(lái)。這個(gè)未來(lái)里,每個(gè)人都可以擁有自己的AI助手,每個(gè)研究者都可以在開(kāi)源基礎(chǔ)上推進(jìn)技術(shù)邊界,每個(gè)開(kāi)發(fā)者都可以構(gòu)建真正有價(jià)值的AI應(yīng)用。這樣的未來(lái),值得我們?yōu)橹Α?/p>
Q&A
Q1:認(rèn)知內(nèi)核-專業(yè)版框架相比其他AI助手有什么特殊優(yōu)勢(shì)?
A:認(rèn)知內(nèi)核-專業(yè)版最大的優(yōu)勢(shì)是完全開(kāi)源且?guī)缀跬耆赓M(fèi)。相比其他需要付費(fèi)API和專有工具的AI助手框架,它只需要Google搜索API這一個(gè)付費(fèi)服務(wù),其他功能都通過(guò)開(kāi)源工具實(shí)現(xiàn)。同時(shí),它還提供了專門訓(xùn)練的8B參數(shù)基礎(chǔ)模型CK-Pro-8B,在同等規(guī)模的開(kāi)源模型中性能領(lǐng)先。
Q2:CK-Pro-8B模型在實(shí)際測(cè)試中表現(xiàn)如何?
A:CK-Pro-8B在GAIA基準(zhǔn)測(cè)試的文本專用子集上取得了優(yōu)異成績(jī),Pass@1得分40.3%,Pass@3得分49.3%,顯著超越了同參數(shù)規(guī)模的WebDancer和WebSailor等7B模型。在Level 1基礎(chǔ)任務(wù)上,Pass@3得分更達(dá)到50.9%,證明了其在相對(duì)簡(jiǎn)單任務(wù)上的可靠性。
Q3:普通用戶如何使用認(rèn)知內(nèi)核-專業(yè)版框架?
A:用戶可以通過(guò)GitHub倉(cāng)庫(kù)(https://github.com/Tencent/CognitiveKernel-Pro)獲取完整的開(kāi)源代碼和使用說(shuō)明。由于框架設(shè)計(jì)了統(tǒng)一的接口和模塊化架構(gòu),用戶可以根據(jù)自己的需求選擇使用完整框架或特定模塊,也可以用自己的語(yǔ)言模型替換默認(rèn)配置。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。