在人工智能飛速發(fā)展的今天,基于大語(yǔ)言模型的智能體(Agent)正在展現(xiàn)越來(lái)越強(qiáng)大的能力,它們能夠完成復(fù)雜的多步驟任務(wù),就像擁有了數(shù)字化的超級(jí)助手。然而,就像豪華跑車(chē)雖然性能卓越但油耗驚人一樣,這些智能體系統(tǒng)在展現(xiàn)強(qiáng)大能力的同時(shí),也面臨著成本高昂的嚴(yán)重問(wèn)題。OPPO人工智能團(tuán)隊(duì)的這項(xiàng)開(kāi)創(chuàng)性研究,首次系統(tǒng)性地解決了這個(gè)困擾整個(gè)行業(yè)的核心難題。
這項(xiàng)由OPPO AI Agent團(tuán)隊(duì)主導(dǎo)的研究發(fā)表于2025年8月,論文全名為《Efficient Agents: Building Effective Agents While Reducing Cost》。有興趣深入了解的讀者可以通過(guò)GitHub鏈接https://github.com/OPPO-PersonalAI/OAgents訪(fǎng)問(wèn)完整代碼和詳細(xì)資料。研究團(tuán)隊(duì)由何朱和周王春樹(shù)作為通訊作者,匯集了OPPO人工智能研究院的多位頂尖研究人員。
當(dāng)前的智能體產(chǎn)品雖然功能強(qiáng)大,但運(yùn)營(yíng)成本卻讓人望而卻步。比如業(yè)界知名的DeepResearch和Manus等產(chǎn)品,雖然能夠處理非常復(fù)雜的任務(wù),但每完成一個(gè)任務(wù)可能需要調(diào)用大語(yǔ)言模型數(shù)百次,這就像是為了做一頓飯卻要開(kāi)關(guān)烤箱幾百次一樣低效。這種高成本不僅限制了產(chǎn)品的規(guī)?;瘧?yīng)用,也阻礙了普通用戶(hù)享受到人工智能技術(shù)的便利。
OPPO團(tuán)隊(duì)意識(shí)到,智能體研究已經(jīng)到了一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。正如早期的自然語(yǔ)言處理研究先追求性能突破、后優(yōu)化效率一樣,智能體領(lǐng)域也需要在保持強(qiáng)大能力的同時(shí),大幅降低運(yùn)營(yíng)成本。他們提出了一個(gè)核心問(wèn)題:能否在幾乎不損失性能的情況下,顯著降低智能體系統(tǒng)的運(yùn)營(yíng)成本?
為了回答這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套系統(tǒng)性的研究方案。他們選擇了GAIA基準(zhǔn)測(cè)試作為實(shí)驗(yàn)平臺(tái),這是一個(gè)專(zhuān)門(mén)用于評(píng)估通用人工智能助手的權(quán)威測(cè)試集,包含了各種復(fù)雜的推理任務(wù)。團(tuán)隊(duì)引入了"單次通過(guò)成本"這一創(chuàng)新評(píng)估指標(biāo),這個(gè)指標(biāo)就像計(jì)算"每公里油耗"一樣,能夠綜合衡量系統(tǒng)的效果和效率。
研究團(tuán)隊(duì)深入分析了影響智能體系統(tǒng)效率的各個(gè)因素,包括基礎(chǔ)大語(yǔ)言模型的選擇、智能體框架的設(shè)計(jì),以及各種運(yùn)行時(shí)優(yōu)化策略。他們就像拆解一臺(tái)復(fù)雜機(jī)器一樣,逐個(gè)檢查每個(gè)組件對(duì)整體性能和成本的影響,然后找出最優(yōu)的組合方案。
一、不同大腦的成本賬單
就像選擇汽車(chē)引擎會(huì)直接影響油耗和性能一樣,選擇什么樣的大語(yǔ)言模型作為智能體的"大腦",對(duì)整個(gè)系統(tǒng)的成本和效果有著決定性影響。研究團(tuán)隊(duì)測(cè)試了市面上主流的各種大語(yǔ)言模型,包括GPT-4.1、Claude-3.7、以及各種開(kāi)源模型。
測(cè)試結(jié)果揭示了一個(gè)有趣的現(xiàn)象。Claude 3.7 Sonnet雖然在準(zhǔn)確率方面表現(xiàn)最佳,能夠正確解決61.82%的問(wèn)題,但它的單次通過(guò)成本卻高達(dá)3.54美元。相比之下,GPT-4.1的準(zhǔn)確率為53.33%,單次通過(guò)成本僅為0.98美元。這就像是比較兩款汽車(chē),一款雖然速度更快但油耗驚人,另一款速度稍慢但更加經(jīng)濟(jì)實(shí)用。
更令人意外的是,一些參數(shù)量相對(duì)較小的稀疏模型,比如Qwen3-30B-A3B,雖然準(zhǔn)確率只有17.58%,但單次通過(guò)成本卻低至0.13美元。這些模型采用了專(zhuān)家混合(MoE)架構(gòu),就像一個(gè)智能的多功能工具箱,只在需要時(shí)才激活相應(yīng)的"專(zhuān)家"模塊,從而大大提高了效率。
研究還發(fā)現(xiàn)了一個(gè)重要規(guī)律:隨著任務(wù)難度的增加,推理能力強(qiáng)的模型成本會(huì)急劇上升。比如Claude 3.7 Sonnet處理最難任務(wù)的成本比處理簡(jiǎn)單任務(wù)高出534%,這就像爬山時(shí)越往高處走越費(fèi)力一樣。這個(gè)發(fā)現(xiàn)對(duì)于選擇合適的模型具有重要指導(dǎo)意義。
二、多次嘗試的邊際效應(yīng)遞減
在現(xiàn)實(shí)生活中,當(dāng)我們面臨困難問(wèn)題時(shí),往往會(huì)嘗試多種不同的解決方案,然后選擇最好的一個(gè)。智能體系統(tǒng)也采用了類(lèi)似的策略,叫做"Best-of-N"采樣,即讓系統(tǒng)嘗試N次,然后選擇表現(xiàn)最好的結(jié)果。
研究團(tuán)隊(duì)測(cè)試了讓系統(tǒng)嘗試1次、2次和4次的效果。結(jié)果顯示,當(dāng)嘗試次數(shù)從1次增加到4次時(shí),token消耗量從243K增加到325K,但準(zhǔn)確率卻只從53.33%微弱提升到53.94%。這就像是多做幾遍練習(xí)題,雖然耗費(fèi)了更多時(shí)間和精力,但成績(jī)提升卻微乎其微。
這種現(xiàn)象揭示了一個(gè)重要原理:盲目增加嘗試次數(shù)并不能帶來(lái)成正比的性能提升,反而會(huì)大幅增加成本。單次通過(guò)成本從0.98美元上升到1.28美元,效率明顯下降。這提醒我們,在設(shè)計(jì)智能體系統(tǒng)時(shí)需要找到嘗試次數(shù)和性能提升之間的最佳平衡點(diǎn)。
三、規(guī)劃復(fù)雜度的智慧平衡
智能體在處理復(fù)雜任務(wù)時(shí)需要進(jìn)行規(guī)劃,就像我們出門(mén)旅行前要制定行程安排一樣。但是,過(guò)于復(fù)雜的規(guī)劃可能會(huì)適得其反。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)系統(tǒng)被允許執(zhí)行的最大步驟數(shù)從4步增加到8步時(shí),準(zhǔn)確率從58.49%顯著提升到69.81%,但繼續(xù)增加到12步時(shí),準(zhǔn)確率提升就不明顯了,成本卻持續(xù)攀升。
這就像做菜時(shí)的調(diào)料搭配,適量的調(diào)料能讓菜品更美味,但過(guò)量反而會(huì)破壞原有的味道。研究還測(cè)試了規(guī)劃更新的頻率,發(fā)現(xiàn)每2步更新一次規(guī)劃比每步都更新要更加高效,這說(shuō)明給系統(tǒng)一些"思考時(shí)間"是有益的。
當(dāng)前的大語(yǔ)言模型在控制推理長(zhǎng)度方面還存在困難,經(jīng)常出現(xiàn)"過(guò)度思考"的現(xiàn)象,就像學(xué)生考試時(shí)在簡(jiǎn)單題目上花費(fèi)太多時(shí)間一樣。適度的規(guī)劃復(fù)雜度能夠顯著提高效率,這是設(shè)計(jì)高效智能體系統(tǒng)的重要原則。
四、工具配置的精妙藝術(shù)
現(xiàn)代智能體的強(qiáng)大能力很大程度上來(lái)自于它們能夠使用各種外部工具,特別是網(wǎng)絡(luò)搜索功能。研究團(tuán)隊(duì)深入分析了工具使用對(duì)效率的影響,就像研究不同廚具對(duì)烹飪效率的作用一樣。
令人意外的是,增加搜索引擎的數(shù)量能夠同時(shí)提高效果和效率。當(dāng)系統(tǒng)可以使用谷歌、維基百科、必應(yīng)、百度和DuckDuckGo等多個(gè)搜索源時(shí),單次通過(guò)成本從1.32美元降低到0.81美元,準(zhǔn)確率也從53.33%提升到59.39%。這就像有了多個(gè)信息來(lái)源,能夠更快找到準(zhǔn)確答案。
在網(wǎng)頁(yè)處理策略方面,簡(jiǎn)單的靜態(tài)內(nèi)容抓取比復(fù)雜的交互式瀏覽更加高效。這提醒我們,有時(shí)候簡(jiǎn)單的解決方案反而是最好的。研究還發(fā)現(xiàn),將用戶(hù)查詢(xún)重新表述成3-10個(gè)不同的搜索問(wèn)題,能夠獲得更全面的搜索結(jié)果,就像從多個(gè)角度觀(guān)察同一個(gè)物體能夠看得更清楚。
五、記憶系統(tǒng)的簡(jiǎn)約之美
智能體系統(tǒng)需要記憶功能來(lái)處理長(zhǎng)期任務(wù),就像人類(lèi)需要記住之前做過(guò)什么才能做出合理的決策。研究團(tuán)隊(duì)測(cè)試了六種不同的記憶設(shè)計(jì)方案,從簡(jiǎn)單的歷史記錄到復(fù)雜的總結(jié)存儲(chǔ)系統(tǒng)。
結(jié)果出人意料:最簡(jiǎn)單的記憶設(shè)計(jì)反而效果最好。僅保留智能體的觀(guān)察和行動(dòng)記錄的"簡(jiǎn)單記憶"方案,不僅成本最低,準(zhǔn)確率還從53.33%提升到56.36%,單次通過(guò)成本從0.98美元降低到0.74美元。這就像整理房間時(shí)發(fā)現(xiàn),有時(shí)候最簡(jiǎn)單的收納方式反而最實(shí)用。
相比之下,試圖使用大語(yǔ)言模型來(lái)總結(jié)歷史軌跡的"總結(jié)記憶"方案成本最高,效果卻不理想。這可能是因?yàn)槟P蜔o(wú)法準(zhǔn)確總結(jié)過(guò)去的歷史軌跡,導(dǎo)致需要額外的嘗試來(lái)解決任務(wù)。這個(gè)發(fā)現(xiàn)提醒我們,在設(shè)計(jì)復(fù)雜系統(tǒng)時(shí),簡(jiǎn)單往往意味著可靠。
六、高效智能體的最優(yōu)配方
基于前面的系統(tǒng)性分析,OPPO團(tuán)隊(duì)提出了"高效智能體"(Efficient Agents)框架。這就像是根據(jù)營(yíng)養(yǎng)學(xué)研究結(jié)果制定的最佳飲食搭配,每個(gè)組件都經(jīng)過(guò)精心選擇和調(diào)優(yōu)。
高效智能體采用GPT-4.1作為基礎(chǔ)模型,設(shè)置最大8個(gè)執(zhí)行步驟,每步都更新規(guī)劃,使用多個(gè)搜索源進(jìn)行信息檢索,將查詢(xún)擴(kuò)展為5個(gè)不同表述,不使用多次采樣策略,采用簡(jiǎn)單的記憶機(jī)制。這個(gè)配置就像一道精心調(diào)配的菜譜,每個(gè)配料的用量都恰到好處。
與當(dāng)前主流的開(kāi)源智能體系統(tǒng)相比,高效智能體實(shí)現(xiàn)了顯著的效率提升。與OWL系統(tǒng)相比,高效智能體保持了96.7%的性能水平,但將運(yùn)營(yíng)成本從0.398美元降低到0.228美元,實(shí)現(xiàn)了28.4%的成本效率提升。這就像找到了一種既營(yíng)養(yǎng)豐富又經(jīng)濟(jì)實(shí)惠的食譜。
與SmolAgent系統(tǒng)的對(duì)比更加明顯,高效智能體在性能相當(dāng)?shù)那闆r下,成本效率優(yōu)勢(shì)極其顯著。這證明了通過(guò)系統(tǒng)性的組件優(yōu)化,確實(shí)可以在保持效果的同時(shí)大幅降低成本。
七、系統(tǒng)性洞察的價(jià)值
這項(xiàng)研究的價(jià)值不僅在于提出了一個(gè)高效的智能體框架,更重要的是建立了一套系統(tǒng)性的分析方法。研究發(fā)現(xiàn),基礎(chǔ)模型的選擇對(duì)整體性能影響最大,其次是智能體能夠執(zhí)行的最大步驟數(shù)和工具使用策略,而多次采樣和復(fù)雜記憶機(jī)制的影響相對(duì)較小。
這些發(fā)現(xiàn)為整個(gè)行業(yè)提供了寶貴的設(shè)計(jì)指導(dǎo)原則。就像建筑師在設(shè)計(jì)房屋時(shí)需要考慮結(jié)構(gòu)、美觀(guān)和成本的平衡,智能體系統(tǒng)的設(shè)計(jì)也需要在性能、成本和復(fù)雜度之間找到最佳平衡點(diǎn)。
研究還揭示了當(dāng)前大語(yǔ)言模型在推理長(zhǎng)度控制方面的局限性。這些模型經(jīng)常出現(xiàn)"過(guò)度思考"現(xiàn)象,在簡(jiǎn)單問(wèn)題上浪費(fèi)大量計(jì)算資源。這提醒我們,未來(lái)的模型開(kāi)發(fā)需要更加注重效率和適應(yīng)性。
說(shuō)到底,OPPO團(tuán)隊(duì)的這項(xiàng)研究為智能體領(lǐng)域帶來(lái)了一次重要的效率革命。他們不僅證明了在保持高性能的同時(shí)大幅降低成本是可能的,更建立了一套系統(tǒng)性的分析框架,為未來(lái)的研究和產(chǎn)品開(kāi)發(fā)指明了方向。
這項(xiàng)工作的意義遠(yuǎn)超技術(shù)層面。它讓高性能的智能體系統(tǒng)變得更加經(jīng)濟(jì)實(shí)用,有望加速這些技術(shù)在實(shí)際生活中的普及應(yīng)用。無(wú)論是個(gè)人助手、客服系統(tǒng)還是教育應(yīng)用,都能從這種高效的設(shè)計(jì)理念中受益。
歸根結(jié)底,這項(xiàng)研究告訴我們,技術(shù)進(jìn)步不僅要追求功能的強(qiáng)大,更要考慮實(shí)用性和可持續(xù)性。就像設(shè)計(jì)一輛好車(chē)不僅要性能出色,還要經(jīng)濟(jì)實(shí)用一樣,優(yōu)秀的智能體系統(tǒng)也應(yīng)該在效果和效率之間達(dá)到完美平衡。OPPO團(tuán)隊(duì)的工作為整個(gè)行業(yè)樹(shù)立了新的標(biāo)桿,相信這種理念將推動(dòng)更多創(chuàng)新和突破的誕生。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文和代碼都可以通過(guò)GitHub鏈接https://github.com/OPPO-PersonalAI/OAgents獲取。
Q&A
Q1:OPPO的高效智能體框架相比傳統(tǒng)智能體系統(tǒng)有什么優(yōu)勢(shì)?
A:OPPO的高效智能體框架最大優(yōu)勢(shì)是實(shí)現(xiàn)了性能和成本的最佳平衡。與主流的OWL系統(tǒng)相比,它保持了96.7%的性能水平,但運(yùn)營(yíng)成本降低了28.4%,從每次0.398美元降至0.228美元。這就像找到了一種既好用又省錢(qián)的解決方案。
Q2:為什么簡(jiǎn)單的記憶機(jī)制比復(fù)雜的總結(jié)記憶效果更好?
A:研究發(fā)現(xiàn)簡(jiǎn)單記憶機(jī)制只保留智能體的觀(guān)察和行動(dòng)記錄,成本最低且效果最佳,準(zhǔn)確率從53.33%提升到56.36%。而復(fù)雜的總結(jié)記憶由于模型無(wú)法準(zhǔn)確總結(jié)歷史軌跡,反而導(dǎo)致成本增加、效果下降,說(shuō)明有時(shí)候簡(jiǎn)單就是最好的。
Q3:普通用戶(hù)什么時(shí)候能用上這種高效的智能體技術(shù)?
A:OPPO團(tuán)隊(duì)已經(jīng)將相關(guān)代碼開(kāi)源到GitHub,這意味著其他開(kāi)發(fā)者和公司可以基于這些研究成果開(kāi)發(fā)更經(jīng)濟(jì)實(shí)用的智能體產(chǎn)品。隨著成本的大幅降低,預(yù)計(jì)未來(lái)會(huì)有更多基于這種高效設(shè)計(jì)的智能助手產(chǎn)品面向普通用戶(hù)推出。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。