基本信息與研究概述
如果你曾經(jīng)想過讓電腦自動(dòng)幫你完成網(wǎng)頁上的重復(fù)性任務(wù),那么這項(xiàng)研究絕對值得你關(guān)注。來自韓國延世大學(xué)和美國卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)最近發(fā)布了一項(xiàng)突破性研究——WEB-SHEPHERD(網(wǎng)絡(luò)牧羊人),這是第一個(gè)專門為評估網(wǎng)絡(luò)導(dǎo)航軌跡而設(shè)計(jì)的過程獎(jiǎng)勵(lì)模型。這項(xiàng)研究發(fā)表于2025年5月,目前正在審閱中,有興趣深入了解的讀者可以通過arXiv:2505.15277v1查閱完整論文。
想象一下,如果你需要每天在亞馬遜上查詢不同產(chǎn)品的價(jià)格、在航空公司網(wǎng)站上檢查航班信息,或者在社交媒體上執(zhí)行重復(fù)性操作。這些任務(wù)不僅耗時(shí),而且枯燥乏味。這正是網(wǎng)絡(luò)代理(Web Agents)試圖解決的問題:讓AI自動(dòng)完成這些任務(wù)。但問題在于,目前的網(wǎng)絡(luò)代理往往不夠可靠,經(jīng)常在遇到微小問題時(shí)表現(xiàn)得很笨拙,比如反復(fù)輸入相同的查詢,最終導(dǎo)致任務(wù)失敗。
研究團(tuán)隊(duì)指出,這種不可靠性主要源于網(wǎng)絡(luò)導(dǎo)航的長期規(guī)劃性質(zhì)。想象你在一個(gè)陌生的城市沒有地圖,需要找到一家特定的餐廳。你需要規(guī)劃多個(gè)步驟,可能要詢問路人、辨認(rèn)路標(biāo)、調(diào)整路線等。同樣,AI在網(wǎng)頁上導(dǎo)航時(shí)也需要規(guī)劃多個(gè)步驟并保持目標(biāo)導(dǎo)向,這對大型語言模型來說是個(gè)挑戰(zhàn)。
為了解決這個(gè)問題,研究人員開發(fā)了WEB-SHEPHERD,這是一個(gè)專門用于評價(jià)網(wǎng)絡(luò)代理行為的"過程獎(jiǎng)勵(lì)模型"(PRM)。如果把網(wǎng)絡(luò)代理比作一個(gè)迷途的旅行者,那么WEB-SHEPHERD就像一個(gè)經(jīng)驗(yàn)豐富的向?qū)В诿恳徊蕉寄芨嬖V旅行者:"是的,你走對了方向"或"不,你需要轉(zhuǎn)向"。
與之前研究不同的是,以往的方法通常依賴于昂貴的大型多模態(tài)語言模型(如GPT-4o)來評估代理的行為,這不僅成本高昂(在WebArena的812個(gè)查詢上使用GPT-4o進(jìn)行樹搜索大約需要14,000美元),而且處理速度慢(在一塊A100上運(yùn)行推理需要40小時(shí))。WEB-SHEPHERD提供了一個(gè)更經(jīng)濟(jì)、更快速的替代方案,同時(shí)還表現(xiàn)得更好。
研究創(chuàng)新點(diǎn)與主要貢獻(xiàn)
研究團(tuán)隊(duì)的貢獻(xiàn)不僅限于創(chuàng)建WEB-SHEPHERD模型,他們還構(gòu)建了完整的數(shù)據(jù)集和評估基準(zhǔn),為網(wǎng)絡(luò)導(dǎo)航領(lǐng)域的獎(jiǎng)勵(lì)模型研究奠定了基礎(chǔ)。
首先,他們創(chuàng)建了WEBPRM COLLECTION,這是一個(gè)包含40,000多個(gè)步級別偏好對的大規(guī)模數(shù)據(jù)集。想象一下,這就像一本詳細(xì)的旅行指南,不僅告訴你最終目的地在哪里,還詳細(xì)記錄了每一個(gè)路口應(yīng)該怎么走,哪條路是對的,哪條路是錯(cuò)的。這個(gè)數(shù)據(jù)集涵蓋了各種不同領(lǐng)域和難度級別的任務(wù),并且每個(gè)任務(wù)都配有一個(gè)注釋清單,明確列出了完成任務(wù)所需的關(guān)鍵步驟。
其次,他們引入了WEBREWARDBENCH,這是首個(gè)專門用于評估網(wǎng)絡(luò)導(dǎo)航獎(jiǎng)勵(lì)模型的元評估基準(zhǔn)。如果把獎(jiǎng)勵(lì)模型比作旅游向?qū)?,那么這個(gè)基準(zhǔn)就像是一個(gè)考核向?qū)芰Φ臉?biāo)準(zhǔn)測試,確保他們真的懂得如何指導(dǎo)旅行者。
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)WEB-SHEPHERD在WEBREWARDBENCH上的表現(xiàn)比使用GPT-4o好約30個(gè)百分點(diǎn)。這就像是一個(gè)本地向?qū)П纫粋€(gè)只看過旅游書的外地人更了解城市的每一條街道。更令人印象深刻的是,當(dāng)在WebArena-lite測試中使用GPT-4o-mini作為策略,而WEB-SHEPHERD作為驗(yàn)證器時(shí),性能比使用GPT-4o-mini作為驗(yàn)證器提高了10.9個(gè)百分點(diǎn),而成本卻減少了10倍。
這項(xiàng)研究的創(chuàng)新點(diǎn)在于,它將網(wǎng)絡(luò)導(dǎo)航任務(wù)分解為清晰的子目標(biāo)清單,然后評估代理在每一步是否朝著這些子目標(biāo)前進(jìn)。就像一個(gè)好的導(dǎo)游會(huì)把復(fù)雜的城市之旅分解成易于理解的部分:"首先我們?nèi)ミ@個(gè)地標(biāo),然后參觀那個(gè)博物館,最后到這家餐廳吃飯"。這種結(jié)構(gòu)化的方法使得WEB-SHEPHERD能夠提供更精確、更有用的反饋。
過程獎(jiǎng)勵(lì)模型的重要性
為什么研究團(tuán)隊(duì)特別強(qiáng)調(diào)"過程"獎(jiǎng)勵(lì)模型,而不是"結(jié)果"獎(jiǎng)勵(lì)模型呢?這個(gè)區(qū)別非常關(guān)鍵。
想象你在教一個(gè)孩子學(xué)習(xí)烹飪。如果你只關(guān)注最終結(jié)果(食物是否好吃),那么當(dāng)出現(xiàn)問題時(shí),孩子可能不知道錯(cuò)在哪里。但如果你在整個(gè)烹飪過程中提供指導(dǎo)("現(xiàn)在應(yīng)該先切菜","火候有點(diǎn)大了"),孩子就能及時(shí)調(diào)整并學(xué)習(xí)得更好。
在網(wǎng)絡(luò)導(dǎo)航中,這種區(qū)別更為重要。研究團(tuán)隊(duì)解釋說,與其他領(lǐng)域不同,網(wǎng)絡(luò)導(dǎo)航中的結(jié)果獎(jiǎng)勵(lì)模型無法集成到測試時(shí)間算法中。例如,在數(shù)學(xué)問題上,AI可以寫出多個(gè)解決方案,然后結(jié)果獎(jiǎng)勵(lì)模型可以選擇一個(gè)最佳方案。但在網(wǎng)絡(luò)導(dǎo)航中,如果AI嘗試了八次預(yù)訂飛機(jī)票,飛機(jī)票是不能退款的,所以必須在過程級別做出關(guān)于采取哪個(gè)行動(dòng)的決策。
此外,在訓(xùn)練時(shí),過程獎(jiǎng)勵(lì)模型能提供更細(xì)粒度的獎(jiǎng)勵(lì)信號,這比結(jié)果獎(jiǎng)勵(lì)模型更可靠。想象你在學(xué)習(xí)開車,教練只在最后告訴你"通過了"或"沒通過",和教練在每個(gè)路口、每次變道時(shí)都給你反饋,哪種學(xué)習(xí)效果更好?顯然是后者。
WEB-SHEPHERD采用了結(jié)構(gòu)化的清單,將高級用戶指令明確分解為清晰、可解釋的子目標(biāo)。通過參考這個(gè)清單作為評估標(biāo)準(zhǔn),WEB-SHEPHERD能夠準(zhǔn)確評估步級別的進(jìn)度,從而在代理軌跡中提供精確和穩(wěn)健的指導(dǎo)。
WEBPRM COLLECTION數(shù)據(jù)集的構(gòu)建
為了訓(xùn)練WEB-SHEPHERD,研究團(tuán)隊(duì)首先需要構(gòu)建一個(gè)高質(zhì)量的數(shù)據(jù)集。這個(gè)過程就像是收集一本詳盡的旅游指南,記錄了各種各樣的旅程,包括哪些路是對的,哪些是錯(cuò)的。
他們的目標(biāo)是收集一個(gè)包含(I, O, C, A+, A-)的數(shù)據(jù)集,其中I是用戶指令,O是觀察結(jié)果序列,C是清單,A+是選擇的動(dòng)作序列(即專家軌跡),A-是拒絕的動(dòng)作序列。
首先,研究團(tuán)隊(duì)從人類專家那里收集用戶指令I(lǐng)和選擇的動(dòng)作A+。他們從Mind2Web使用的網(wǎng)站池中選擇了可以通過playwright訪問的網(wǎng)站。在注釋之前,所有注釋者參加了一個(gè)三小時(shí)的培訓(xùn)課程,以熟悉注釋工具并理解人類和代理瀏覽行為之間的差異。
之后,收集的所有數(shù)據(jù)都由10名人類評估者審核,以確保質(zhì)量和一致性。在這個(gè)過程中,他們過濾掉了無法復(fù)現(xiàn)的無效軌跡,以及容易誤解的模糊指令。注釋者被指示制作跨越三個(gè)難度級別的指令I(lǐng):簡單、中等和困難。
接下來,研究團(tuán)隊(duì)構(gòu)建了粗粒度的清單,這些清單強(qiáng)調(diào)有意義的任務(wù)進(jìn)展,而不是精確的執(zhí)行步驟。例如,像"過濾A"和"過濾B"這樣的細(xì)粒度動(dòng)作被抽象為更高級別的子目標(biāo),如"過濾"。這種抽象使模型能夠泛化到語義上等效的策略。給定指令I(lǐng)和專家軌跡A+,他們使用GPT-4o生成子目標(biāo)分析和相應(yīng)的清單。
為了收集被拒絕的動(dòng)作a-,研究團(tuán)隊(duì)從各種策略中采樣5個(gè)候選動(dòng)作,并選擇那些與專家動(dòng)作a+不同的動(dòng)作。然而,其中一些替代方案可能對應(yīng)于有效但不同的朝向任務(wù)完成的動(dòng)作。為了最小化這種情況,他們應(yīng)用了基于規(guī)則的過濾,并為每個(gè)專家動(dòng)作a+收集最多五個(gè)被拒絕的動(dòng)作a-。
最終的數(shù)據(jù)集展示了隨著難度級別增加,代理軌跡的長度和清單子目標(biāo)的數(shù)量也增加。簡單任務(wù)通常需要較少的步驟(中位數(shù)約5步),而中等任務(wù)顯示出更多的變異性(中位數(shù)約9步),困難任務(wù)涉及明顯更長的軌跡(中位數(shù)約20步),有些甚至超過40步。這表明他們的難度注釋有效地反映了復(fù)雜性和所需的交互深度。
WEB-SHEPHERD模型的設(shè)計(jì)與工作原理
WEB-SHEPHERD就像一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)游,不僅知道最終目的地在哪里,還能在旅程的每一步提供指導(dǎo)。它的工作分為兩個(gè)關(guān)鍵步驟:清單生成和基于清單的獎(jiǎng)勵(lì)預(yù)測。
第一步是清單生成。當(dāng)給定一個(gè)用戶指令I(lǐng)時(shí),WEB-SHEPHERD會(huì)生成一個(gè)清單C,這個(gè)清單由一系列自然語言子目標(biāo)(g1, g2, ..., gk)組成。這就像是將一次復(fù)雜的城市之旅分解為幾個(gè)關(guān)鍵景點(diǎn):"首先參觀這個(gè)博物館,然后去那個(gè)公園,最后到這家餐廳"。這個(gè)清單隨后成為獎(jiǎng)勵(lì)預(yù)測的基礎(chǔ),使WEB-SHEPHERD能夠追蹤朝向目標(biāo)的進(jìn)度。
第二步是基于清單的獎(jiǎng)勵(lì)建模。研究團(tuán)隊(duì)選擇了下一個(gè)標(biāo)記預(yù)測作為學(xué)習(xí)目標(biāo),以利用多模態(tài)大型語言模型的內(nèi)部推理能力。他們優(yōu)化了針對由反饋F和判斷J連接形成的目標(biāo)的語言建模損失,將整個(gè)序列視為一個(gè)連貫的響應(yīng)。
具體來說,給定一個(gè)由清單C、觀察o和回答a組成的輸入,模型被訓(xùn)練成以自回歸方式生成相應(yīng)的反饋和判斷。損失函數(shù)定義為:
LNTP = -∑t log Pθ(yt | y<t, C, o, a)
其中y = [F; J]表示連接的反饋和判斷標(biāo)記。這個(gè)目標(biāo)鼓勵(lì)模型學(xué)習(xí)基于清單評估軌跡,進(jìn)行推理并提供解釋評估的有價(jià)值反饋。
由于獎(jiǎng)勵(lì)是通過標(biāo)記生成預(yù)測的,輸出位于離散空間中。為了獲得連續(xù)的獎(jiǎng)勵(lì)信號,可以采用幾種映射策略。一種方法是采樣多個(gè)輸出序列并計(jì)算平均獎(jiǎng)勵(lì)?;蛘?,研究團(tuán)隊(duì)采用了一個(gè)verbalized(語言化器),使用來自LM頭的logits來估計(jì)標(biāo)簽標(biāo)記(例如,"Yes","No"和"In Progress")上的軟概率。
在推理時(shí),WEB-SHEPHERD生成反饋F ~ P(·|I, C, o, a)并使用"Yes"和"In Progress"標(biāo)記的概率計(jì)算每個(gè)清單項(xiàng)的獎(jiǎng)勵(lì):
rk(o, a) = (1/L) ∑L_l P("Yes"|I, C, o, a, F) + 0.5 × P("In Progress"|I, C, o, a, F)
其中L表示清單的數(shù)量,rk是分配給第k個(gè)響應(yīng)的分?jǐn)?shù)。最終獎(jiǎng)勵(lì)計(jì)算為平均值:r(o, a) = ∑K_k=1 rk(o, a)。
實(shí)驗(yàn)結(jié)果與評估
研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn),專注于在為網(wǎng)絡(luò)代理分配過程級別獎(jiǎng)勵(lì)方面的有效性,既關(guān)注獎(jiǎng)勵(lì)分配的準(zhǔn)確性,也關(guān)注這些獎(jiǎng)勵(lì)在提高代理性能方面的實(shí)用性。
首先,他們創(chuàng)建了WEBREWARDBENCH,這是一個(gè)直接測量預(yù)測獎(jiǎng)勵(lì)準(zhǔn)確性的基準(zhǔn)。為了構(gòu)建一個(gè)可靠的基準(zhǔn)來評估PRMs,他們遵循了Kim等人的設(shè)置,收集了偏好對(ot, a+_t, {a-_(t,i)}^4_i=1}),其中每個(gè)觀察ot都配對了一個(gè)選擇的動(dòng)作和四個(gè)被拒絕的動(dòng)作。此外,他們?yōu)槊總€(gè)任務(wù)提供了參考清單,以確保公平和一致的評估。
他們使用三個(gè)指標(biāo)評估過程獎(jiǎng)勵(lì)預(yù)測:(1)平均倒數(shù)排名(MRR):在按預(yù)測獎(jiǎng)勵(lì)排序的所有候選動(dòng)作列表中,首選動(dòng)作的倒數(shù)排名的平均值;(2)步驟準(zhǔn)確率(Acc. step):模型為首選動(dòng)作a+_t分配最高預(yù)測獎(jiǎng)勵(lì)的步驟比例;(3)軌跡準(zhǔn)確率(Acc. traj):模型在每個(gè)步驟中將a+排在候選動(dòng)作中最高位置的完整軌跡比例。
研究發(fā)現(xiàn),當(dāng)前最先進(jìn)的多模態(tài)大型語言模型在為網(wǎng)絡(luò)導(dǎo)航任務(wù)分配可靠獎(jiǎng)勵(lì)方面存在困難。這種限制在軌跡準(zhǔn)確率指標(biāo)中特別明顯。在這個(gè)指標(biāo)中,模型經(jīng)常無法在單個(gè)任務(wù)內(nèi)的每個(gè)時(shí)間步驟一致地分配正確的獎(jiǎng)勵(lì)。相比之下,WEB-SHEPHERD在所有基準(zhǔn)設(shè)置中顯著優(yōu)于所有基線,表現(xiàn)出顯著的性能差距。
清單允許可靠的獎(jiǎng)勵(lì)分配。實(shí)驗(yàn)表明,基線和研究團(tuán)隊(duì)的模型在分配獎(jiǎng)勵(lì)時(shí)都顯著受益于清單。清單導(dǎo)致獎(jiǎng)勵(lì)分配更準(zhǔn)確和一致,如所有基線的軌跡準(zhǔn)確率提高所證明的。這些結(jié)果表明,清單作為有價(jià)值的指導(dǎo),幫助模型在預(yù)測過程獎(jiǎng)勵(lì)時(shí)保持連貫性。
有趣的是,多模態(tài)輸入并不總是提高性能;在某些情況下,使用多模態(tài)輸入甚至?xí)档托阅堋@?,?dāng)使用GPT-4o作為獎(jiǎng)勵(lì)模型時(shí),他們在Mind2Web的跨網(wǎng)站子集上的軌跡準(zhǔn)確率方面觀察到顯著改進(jìn)。這一觀察與Xue等人的發(fā)現(xiàn)一致,表明處理來自多種模態(tài)的輸入可能引入模糊性,并充當(dāng)噪音源,最終阻礙模型性能。
在獎(jiǎng)勵(lì)引導(dǎo)軌跡搜索方面,使用Best-of-n(BoN)采樣的獎(jiǎng)勵(lì)引導(dǎo)搜索為評估獎(jiǎng)勵(lì)模型引導(dǎo)策略的能力提供了一個(gè)實(shí)用代理。值得注意的是,它允許評估獎(jiǎng)勵(lì)過度優(yōu)化的潛力,而不依賴強(qiáng)化學(xué)習(xí)。此外,它提供了一種在不微調(diào)的情況下調(diào)整MLLM策略的有效方法。
在WebArena-lite的在線設(shè)置中,他們使用GPT-4o-mini作為策略,在五個(gè)從策略采樣的動(dòng)作候選中,執(zhí)行分配最高獎(jiǎng)勵(lì)的動(dòng)作。在使用GPT-4o-mini作為獎(jiǎng)勵(lì)模型時(shí),他們觀察到GPT-4o-mini策略的輕微改進(jìn)。然而,當(dāng)GPT-4o用作策略模型時(shí),總體性能從31.52降至26.67。相比之下,應(yīng)用WEB-SHEPHERD導(dǎo)致GPT-4o-mini和GPT-4o策略在幾乎所有領(lǐng)域都有顯著的性能提升。值得注意的是,WEB-SHEPHERD將GPT-4o-mini的瀏覽性能從23.64提升到34.55,比沒有軌跡搜索的GPT-4o高出約3個(gè)百分點(diǎn)。這些結(jié)果表明,WEB-SHEPHERD在在線設(shè)置中保持有效,即使與更強(qiáng)的策略模型配對。
為了評估WEB-SHEPHERD生成的反饋的有效性,研究團(tuán)隊(duì)進(jìn)行了實(shí)驗(yàn),其中代理使用他們的反饋進(jìn)行步級別改進(jìn)。具體來說,當(dāng)當(dāng)前獎(jiǎng)勵(lì)低于WEB-SHEPHERD分配的前一個(gè)獎(jiǎng)勵(lì)時(shí),代理使用他們的反饋改進(jìn)當(dāng)前動(dòng)作。有趣的是,與Chae等人之前的發(fā)現(xiàn)相反,他們發(fā)現(xiàn)在改進(jìn)過程中納入模型反饋會(huì)導(dǎo)致顯著改進(jìn)。一個(gè)可能的解釋是,WEB-SHEPHERD不僅學(xué)習(xí)了動(dòng)作的影響,還識別了表征次優(yōu)行為的模式。
成本效益分析與潛在應(yīng)用
研究團(tuán)隊(duì)評估了WEB-SHEPHERD的成本效益,將其與基于API的模型進(jìn)行了比較。對于WEB-SHEPHERD,成本估計(jì)基于A100 80GB GPU實(shí)例的每小時(shí)費(fèi)率(1.19美元/小時(shí)),結(jié)合通過vLLM測量的吞吐量。每個(gè)實(shí)例平均有81,287個(gè)輸入和1,953個(gè)輸出標(biāo)記,他們使用公開可用的價(jià)格計(jì)算基于API的模型的成本。
研究顯示,WEB-SHEPHERD以最低的每1,000個(gè)實(shí)例成本提供了最佳性能——大約比GPT-4o-mini便宜10倍,比GPT-4o便宜100倍。這種顯著的成本節(jié)約使得WEB-SHEPHERD成為實(shí)際應(yīng)用中的可行選擇,特別是對于需要在預(yù)算限制內(nèi)大規(guī)模部署網(wǎng)絡(luò)代理的企業(yè)或個(gè)人用戶。
研究團(tuán)隊(duì)還進(jìn)行了案例研究,對WEB-SHEPHERD進(jìn)行定性分析。他們從獎(jiǎng)勵(lì)引導(dǎo)軌跡搜索中采樣了30個(gè)成功案例和30個(gè)失敗案例,并繪制了獎(jiǎng)勵(lì)分?jǐn)?shù)趨勢作為軌跡長度上的歸一化步驟索引的函數(shù)。雖然失敗案例表現(xiàn)出相對平坦的獎(jiǎng)勵(lì)曲線,但成功案例顯示隨時(shí)間的獎(jiǎng)勵(lì)平穩(wěn)一致地增加。
此外,他們確定了三個(gè)最常見的錯(cuò)誤來源:(1)對動(dòng)作效果的錯(cuò)誤推理,其中模型無法適當(dāng)?shù)仡A(yù)期未來獎(jiǎng)勵(lì)——例如,在下一步中為本應(yīng)揭示所需信息的滾動(dòng)動(dòng)作分配低獎(jiǎng)勵(lì);(2)對觀察到的狀態(tài)的誤解,通常是由于沒有正確考慮先前動(dòng)作的影響,導(dǎo)致模型不必要地重復(fù)動(dòng)作;(3)生成的清單中的幻覺,例如假設(shè)網(wǎng)站上存在不存在的功能(如過濾功能)。
研究局限性與未來方向
盡管WEB-SHEPHERD取得了顯著的成功,但研究團(tuán)隊(duì)也坦率地討論了他們工作的一些限制和未來研究方向。
首先,他們指出需要擴(kuò)展到基于坐標(biāo)的動(dòng)作。最近,基于坐標(biāo)的動(dòng)作——代理使用直接坐標(biāo)輸入與數(shù)字環(huán)境交互,而不需要額外的后端程序來轉(zhuǎn)換動(dòng)作——因其在多樣化接口中的適應(yīng)性而受到關(guān)注。研究團(tuán)隊(duì)已經(jīng)收集了一個(gè)數(shù)據(jù)集,以擴(kuò)展WEB-SHEPHERD支持基于坐標(biāo)的動(dòng)作格式。然而,由于這個(gè)方向超出了本工作的主要范圍,他們將其探索留給未來的研究。
其次,將WEB-SHEPHERD應(yīng)用于強(qiáng)化學(xué)習(xí)是另一個(gè)有趣的未來方向。雖然他們計(jì)劃探索這個(gè)設(shè)置,但它需要大量的計(jì)算資源,因此也留給未來的工作。特別是,他們希望調(diào)查來自PRMs的獎(jiǎng)勵(lì)信號是否可以提高學(xué)習(xí)效率——即,在訓(xùn)練期間獎(jiǎng)勵(lì)增加的速度——以及在現(xiàn)有基準(zhǔn)上的最終性能。
第三,關(guān)于WEB-SHEPHERD的基礎(chǔ)模型選擇,研究團(tuán)隊(duì)目前的實(shí)現(xiàn)使用相對輕量級的基礎(chǔ)模型(3B-8B),但這種方法是模型無關(guān)的,可以擴(kuò)展到更大的規(guī)模。原則上,WEB-SHEPHERD可以擴(kuò)展到32B-72B范圍內(nèi)的更強(qiáng)大的基礎(chǔ)模型,這可能會(huì)在復(fù)雜的網(wǎng)絡(luò)環(huán)境中進(jìn)一步提高性能。他們將此類擴(kuò)展的探索留給未來的工作,特別是在資源豐富的環(huán)境中。
最后,擴(kuò)展WEB-SHEPHERD以處理多模態(tài)指令也是一個(gè)有前途的方向。雖然現(xiàn)有網(wǎng)絡(luò)代理基準(zhǔn)中的大多數(shù)指令都是純文本的,但一些任務(wù)——例如VisualWebArena中的任務(wù)——同時(shí)包含文本和圖像模態(tài)。擴(kuò)展WEB-SHEPHERD以處理多模態(tài)指令是未來工作的有前途的方向,因?yàn)樗鼘⑹勾砟軌蛟诔宋谋纠斫庵膺€需要視覺理解的更復(fù)雜和現(xiàn)實(shí)的網(wǎng)絡(luò)環(huán)境中操作。
結(jié)論
歸根結(jié)底,WEB-SHEPHERD代表了網(wǎng)絡(luò)導(dǎo)航領(lǐng)域的重要進(jìn)步。通過提供一個(gè)專門用于評估網(wǎng)絡(luò)代理軌跡的高效過程獎(jiǎng)勵(lì)模型,研究團(tuán)隊(duì)不僅創(chuàng)建了一個(gè)性能優(yōu)越的解決方案,還大大降低了成本,使其在實(shí)際應(yīng)用中更加可行。
簡單來說,WEB-SHEPHERD就像是一個(gè)經(jīng)驗(yàn)豐富的旅行向?qū)В粌H知道最終目的地在哪里,還能在旅程的每一步提供明確的指導(dǎo)。而且,與雇傭一個(gè)昂貴的專業(yè)向?qū)啾?,WEB-SHEPHERD提供了同樣甚至更好的指導(dǎo),但成本只有原來的十分之一。
此外,研究團(tuán)隊(duì)通過創(chuàng)建WEBPRM COLLECTION和WEBREWARDBENCH,為未來的研究提供了寶貴的資源,使其他研究人員能夠構(gòu)建和評估自己的網(wǎng)絡(luò)導(dǎo)航獎(jiǎng)勵(lì)模型。
對于普通用戶來說,這項(xiàng)研究的意義在于,它為更可靠、更經(jīng)濟(jì)的自動(dòng)化網(wǎng)絡(luò)任務(wù)鋪平了道路。想象一下,在不久的將來,你可能會(huì)有一個(gè)個(gè)人助手,能夠?yàn)槟泐A(yù)訂機(jī)票、比較產(chǎn)品價(jià)格、填寫表格,甚至管理你的社交媒體賬戶,而所有這些都以高度可靠的方式完成,不需要你的不斷干預(yù)。
WEB-SHEPHERD的清單基礎(chǔ)方法還提供了一個(gè)可推廣的框架,可能擴(kuò)展到網(wǎng)絡(luò)導(dǎo)航之外的其他順序決策制定領(lǐng)域,特別是那些獎(jiǎng)勵(lì)稀疏和部分可觀察性仍然具有挑戰(zhàn)性的領(lǐng)域。我們相信,WEB-SHEPHERD為通過可解釋的獎(jiǎng)勵(lì)建模開發(fā)更可靠的網(wǎng)絡(luò)代理奠定了基礎(chǔ)。
想要深入了解這項(xiàng)研究的讀者可以訪問研究團(tuán)隊(duì)的代碼庫和數(shù)據(jù)集,它們已公開可用。這不僅使其他研究人員能夠復(fù)制和擴(kuò)展這項(xiàng)工作,還使實(shí)踐者能夠?qū)EB-SHEPHERD集成到他們自己的應(yīng)用中,從而推動(dòng)網(wǎng)絡(luò)代理技術(shù)的進(jìn)一步發(fā)展和應(yīng)用。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。