
這項(xiàng)由加州大學(xué)洛杉磯分校(UCLA)的洪宜寧、孫銳、李炳軒、姚星成、吳美心、錢亞歷山大、尹達(dá)、吳應(yīng)念、王哲燦·詹姆斯、張凱維等研究者共同完成的突破性研究,于2025年6月18日以預(yù)印本形式發(fā)布在arXiv平臺(tái)上。有興趣深入了解的讀者可以通過(guò)https://embodied-web-agent.github.io/訪問(wèn)完整項(xiàng)目資源。這項(xiàng)研究首次提出了"具身網(wǎng)絡(luò)智能體"的全新概念,創(chuàng)造了一種能夠同時(shí)在物理世界和數(shù)字世界中自由行動(dòng)的AI系統(tǒng)。
我們?nèi)粘I钪薪?jīng)常會(huì)遇到這樣的場(chǎng)景:你想做一道新菜,需要先在網(wǎng)上查找食譜,然后去超市買缺少的食材,回到廚房按照食譜步驟烹飪?;蛘吣阆肴ヒ粋€(gè)陌生的地方旅行,需要在地圖軟件上查找路線,然后在現(xiàn)實(shí)中按照導(dǎo)航走到目的地,沿途還可能需要查詢某個(gè)建筑物的歷史背景。這些看似簡(jiǎn)單的任務(wù),實(shí)際上需要我們不斷在"數(shù)字世界"(網(wǎng)絡(luò)、手機(jī)應(yīng)用)和"物理世界"(真實(shí)環(huán)境、實(shí)際行動(dòng))之間切換。
然而令人驚訝的是,目前的AI系統(tǒng)卻無(wú)法像人類一樣自然地完成這種跨域任務(wù)?,F(xiàn)有的AI要么專注于網(wǎng)絡(luò)信息處理,能夠搜索資料、理解文本,但無(wú)法在現(xiàn)實(shí)中行動(dòng);要么專注于物理世界的操作,比如機(jī)器人能夠移動(dòng)、抓取物體,但無(wú)法主動(dòng)上網(wǎng)獲取信息。這就像讓一個(gè)人只能用左手或者只能用右手生活一樣,嚴(yán)重限制了AI的實(shí)用性。
UCLA的研究團(tuán)隊(duì)意識(shí)到,真正有用的AI助手應(yīng)該能夠像人類一樣,同時(shí)具備"數(shù)字智慧"和"物理能力"。他們創(chuàng)造性地提出了"具身網(wǎng)絡(luò)智能體"這一概念,開(kāi)發(fā)出了能夠在現(xiàn)實(shí)世界中行走、觀察、操作物品,同時(shí)又能夠上網(wǎng)搜索信息、閱讀網(wǎng)頁(yè)、進(jìn)行在線購(gòu)物的AI系統(tǒng)。這種智能體不僅能夠理解"在網(wǎng)上找到土豆炒蛋的食譜"這樣的數(shù)字任務(wù),還能夠在現(xiàn)實(shí)廚房中識(shí)別食材、操作炊具,完成真正的烹飪過(guò)程。
為了驗(yàn)證這種新型智能體的能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含約1500個(gè)任務(wù)的綜合測(cè)試平臺(tái),涵蓋了烹飪、導(dǎo)航、購(gòu)物、旅游和地理定位五個(gè)主要場(chǎng)景。他們使用GPT-4o、Gemini 2.0 Flash、Qwen-VL-Plus和InternVL2.5等當(dāng)前最先進(jìn)的大型語(yǔ)言模型進(jìn)行測(cè)試,結(jié)果發(fā)現(xiàn)這些AI系統(tǒng)在跨域任務(wù)上的表現(xiàn)遠(yuǎn)遠(yuǎn)不如人類。這一發(fā)現(xiàn)不僅揭示了當(dāng)前AI技術(shù)的局限性,也為未來(lái)AI發(fā)展指明了新的方向。
一、當(dāng)前AI的"數(shù)字-物理"鴻溝究竟有多深
在我們的日常生活中,數(shù)字世界和物理世界的界限正在變得越來(lái)越模糊。當(dāng)你餓了想吃飯時(shí),你可能會(huì)先在手機(jī)上查看美食應(yīng)用,然后根據(jù)評(píng)價(jià)和距離選擇餐廳,接著使用地圖導(dǎo)航到達(dá)目的地,最后在現(xiàn)實(shí)中享用美食。整個(gè)過(guò)程看似簡(jiǎn)單,但實(shí)際上需要你的大腦在兩個(gè)不同的世界之間無(wú)縫切換:一個(gè)是充滿信息的數(shù)字世界,另一個(gè)是需要實(shí)際行動(dòng)的物理世界。
然而,當(dāng)前的AI系統(tǒng)卻面臨著嚴(yán)重的"分裂癥"問(wèn)題。一類AI專門處理網(wǎng)絡(luò)信息,它們可以快速搜索數(shù)百萬(wàn)網(wǎng)頁(yè),理解復(fù)雜文本,甚至能夠與人類進(jìn)行智能對(duì)話,但它們就像被困在屏幕里的智慧生物,無(wú)法伸出"手"來(lái)觸摸現(xiàn)實(shí)世界。另一類AI則專注于物理操作,比如工廠里的機(jī)器人手臂能夠精準(zhǔn)地裝配零件,掃地機(jī)器人能夠在房間里自主導(dǎo)航,但它們就像"信息盲人",無(wú)法主動(dòng)獲取網(wǎng)絡(luò)上的最新信息來(lái)優(yōu)化自己的行為。
這種分割帶來(lái)了嚴(yán)重的實(shí)用性問(wèn)題。以烹飪?yōu)槔?,一個(gè)專門處理網(wǎng)絡(luò)信息的AI可以為你推薦完美的食譜,詳細(xì)解釋每一個(gè)步驟,甚至能夠根據(jù)你的飲食偏好進(jìn)行個(gè)性化調(diào)整。但當(dāng)涉及到實(shí)際烹飪時(shí),它卻無(wú)法幫你識(shí)別冰箱里的食材是否新鮮,無(wú)法判斷炒菜時(shí)火候是否合適,更無(wú)法在發(fā)現(xiàn)缺少某種調(diào)料時(shí)主動(dòng)建議你去哪家超市購(gòu)買。
相反,一個(gè)專門處理物理任務(wù)的機(jī)器人可能能夠切菜、炒菜,甚至完成相當(dāng)復(fù)雜的烹飪動(dòng)作,但它無(wú)法理解"今天想吃點(diǎn)清淡的"這樣的抽象需求,也無(wú)法在制作過(guò)程中遇到問(wèn)題時(shí)上網(wǎng)查找解決方案。更重要的是,它無(wú)法像人類一樣,在烹飪過(guò)程中突然想到"這道菜的歷史背景是什么"而去搜索相關(guān)信息,然后在餐桌上與家人分享這些有趣的知識(shí)。
研究團(tuán)隊(duì)發(fā)現(xiàn),這種分割不僅僅是技術(shù)實(shí)現(xiàn)上的問(wèn)題,更是概念框架上的根本缺陷。傳統(tǒng)的AI研究往往將"智能"分為兩個(gè)獨(dú)立的領(lǐng)域:一個(gè)是基于符號(hào)和語(yǔ)言的"認(rèn)知智能",另一個(gè)是基于感知和行動(dòng)的"具身智能"。這就像試圖分別訓(xùn)練一個(gè)人的左腦和右腦,而忽視了大腦作為一個(gè)整體系統(tǒng)的協(xié)調(diào)工作機(jī)制。
更深層的問(wèn)題在于,現(xiàn)實(shí)世界的任務(wù)往往天然地需要這兩種能力的協(xié)同。當(dāng)你在一個(gè)陌生城市旅行時(shí),你需要在手機(jī)地圖上查找路線(數(shù)字能力),然后在現(xiàn)實(shí)街道中按照指示行走(物理能力),在看到有趣的建筑時(shí)用搜索引擎查詢其歷史背景(數(shù)字能力),最后拍照留念并在社交媒體上分享(物理+數(shù)字能力的組合)。這種能力的切換是如此自然和頻繁,以至于我們通常意識(shí)不到自己在不斷地跨越兩個(gè)世界的邊界。
研究團(tuán)隊(duì)意識(shí)到,如果AI要真正成為人類的智能助手,它必須能夠像人類一樣在這兩個(gè)世界之間自由穿梭。這不僅僅是技術(shù)上的挑戰(zhàn),更是對(duì)AI智能定義的重新思考。他們提出,真正的智能應(yīng)該是"統(tǒng)一的智能",能夠?qū)?shù)字世界的無(wú)限信息資源與物理世界的實(shí)際操作能力結(jié)合起來(lái),形成一種全新的智能形態(tài)。
二、革命性的"具身網(wǎng)絡(luò)智能體"橫空出世
面對(duì)AI世界中這道看似無(wú)法跨越的鴻溝,UCLA研究團(tuán)隊(duì)提出了一個(gè)大膽而創(chuàng)新的解決方案:具身網(wǎng)絡(luò)智能體(Embodied Web Agents)。這個(gè)概念聽(tīng)起來(lái)可能有些抽象,但可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:如果傳統(tǒng)的AI是要么只有"大腦"(能思考但不能行動(dòng)),要么只有"身體"(能行動(dòng)但缺乏豐富知識(shí)),那么具身網(wǎng)絡(luò)智能體就是擁有完整"大腦+身體+互聯(lián)網(wǎng)連接"的智能存在。
這種新型智能體的核心理念是"無(wú)縫融合"。它不是簡(jiǎn)單地將兩種不同的AI系統(tǒng)拼接在一起,而是從根本上重新設(shè)計(jì)了智能體的架構(gòu),使其能夠像人類一樣自然地在數(shù)字世界和物理世界之間切換。比如,當(dāng)智能體在廚房里發(fā)現(xiàn)缺少某種食材時(shí),它不需要等待人類的指令,而是能夠主動(dòng)訪問(wèn)購(gòu)物網(wǎng)站,查找該食材的價(jià)格和庫(kù)存信息,甚至直接下單購(gòu)買,然后繼續(xù)進(jìn)行烹飪?nèi)蝿?wù)。
為了實(shí)現(xiàn)這一愿景,研究團(tuán)隊(duì)需要解決幾個(gè)關(guān)鍵的技術(shù)挑戰(zhàn)。首先是"感知對(duì)齊"問(wèn)題,也就是如何讓智能體將抽象的網(wǎng)絡(luò)指令與具體的物理觀察聯(lián)系起來(lái)。比如,當(dāng)食譜上寫著"將土豆炒至金黃色"時(shí),智能體需要能夠通過(guò)視覺(jué)觀察判斷土豆是否達(dá)到了"金黃色"的狀態(tài)。這要求智能體不僅要理解語(yǔ)言描述,還要能夠?qū)⑦@些描述映射到實(shí)際的視覺(jué)特征上。
第二個(gè)挑戰(zhàn)是"跨域規(guī)劃"問(wèn)題。在傳統(tǒng)的單域AI系統(tǒng)中,規(guī)劃相對(duì)簡(jiǎn)單:要么制定一系列網(wǎng)絡(luò)操作步驟,要么規(guī)劃一系列物理動(dòng)作。但在跨域系統(tǒng)中,智能體需要能夠動(dòng)態(tài)地決定何時(shí)應(yīng)該轉(zhuǎn)向網(wǎng)絡(luò)搜索,何時(shí)應(yīng)該回到物理操作,尤其是當(dāng)兩個(gè)域的信息出現(xiàn)沖突時(shí)該如何處理。比如,網(wǎng)絡(luò)地圖顯示某條路可以通行,但實(shí)際觀察發(fā)現(xiàn)道路正在施工,智能體需要能夠重新規(guī)劃路線。
第三個(gè)挑戰(zhàn)是"持續(xù)記憶"問(wèn)題。由于跨域任務(wù)往往比較復(fù)雜且耗時(shí)較長(zhǎng),智能體需要能夠在不同域之間保持一致的記憶和狀態(tài)。它需要記住在網(wǎng)絡(luò)上查找到的信息,并在物理操作中應(yīng)用這些信息,同時(shí)還要能夠?qū)⑽锢硎澜绲挠^察結(jié)果反饋到網(wǎng)絡(luò)搜索中,形成一個(gè)完整的信息循環(huán)。
為了應(yīng)對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)創(chuàng)新的三層架構(gòu)系統(tǒng)。底層是環(huán)境感知層,包括室內(nèi)3D環(huán)境(基于AI2-THOR平臺(tái))、室外街景環(huán)境(基于Google Street View)和網(wǎng)絡(luò)環(huán)境(包括多個(gè)功能性網(wǎng)站)。中層是融合推理層,負(fù)責(zé)處理跨域的信息整合和決策制定。頂層是任務(wù)執(zhí)行層,能夠根據(jù)當(dāng)前情況選擇合適的操作模式。
這種架構(gòu)的巧妙之處在于,它將整個(gè)系統(tǒng)視為一個(gè)統(tǒng)一的狀態(tài)空間,其中物理狀態(tài)和數(shù)字狀態(tài)被平等對(duì)待。智能體的每一次決策都可能涉及狀態(tài)空間的跨域轉(zhuǎn)換,比如從"在廚房切菜"轉(zhuǎn)換到"在購(gòu)物網(wǎng)站查找調(diào)料",然后再轉(zhuǎn)換到"根據(jù)配送時(shí)間調(diào)整烹飪計(jì)劃"。這種設(shè)計(jì)使得智能體能夠像人類一樣自然地在不同任務(wù)模式之間切換。
更重要的是,這種架構(gòu)支持真正的"協(xié)同智能"。傳統(tǒng)的AI系統(tǒng)往往是"單向"的:要么從輸入到輸出,要么從感知到行動(dòng)。但具身網(wǎng)絡(luò)智能體創(chuàng)造了一個(gè)"多向循環(huán)":網(wǎng)絡(luò)信息可以指導(dǎo)物理行動(dòng),物理觀察可以觸發(fā)網(wǎng)絡(luò)搜索,而新的網(wǎng)絡(luò)信息又可以修正之前的物理操作。這種循環(huán)使得智能體能夠在復(fù)雜的現(xiàn)實(shí)任務(wù)中表現(xiàn)出真正的適應(yīng)性和創(chuàng)造性。
三、構(gòu)建跨域智能體的技術(shù)魔法
要讓AI智能體同時(shí)在數(shù)字世界和物理世界中自如操作,就像要求一個(gè)人同時(shí)成為出色的網(wǎng)絡(luò)偵探和靈巧的手工藝師。這需要一套完全不同于傳統(tǒng)AI的技術(shù)架構(gòu)。UCLA團(tuán)隊(duì)巧妙地將這個(gè)復(fù)雜系統(tǒng)分解為三個(gè)相互配合的環(huán)境模塊,每個(gè)模塊都有其獨(dú)特的功能和挑戰(zhàn)。
室外環(huán)境模塊就像為智能體提供了一雙"千里眼"。研究團(tuán)隊(duì)沒(méi)有選擇創(chuàng)建虛擬的3D城市模型,而是直接利用了Google Street View的真實(shí)街景數(shù)據(jù)。這個(gè)決策看似簡(jiǎn)單,但實(shí)際上解決了一個(gè)巨大的技術(shù)難題:如何讓AI在真實(shí)世界的復(fù)雜環(huán)境中導(dǎo)航。他們選擇了紐約、波士頓、費(fèi)城和匹茲堡四個(gè)城市,這些城市的街道布局復(fù)雜多樣,為智能體提供了豐富的測(cè)試場(chǎng)景。
這種基于真實(shí)數(shù)據(jù)的方法帶來(lái)了意想不到的好處。與那些在理想化虛擬環(huán)境中訓(xùn)練的AI不同,這些智能體需要處理真實(shí)世界的"噪音":模糊的街景圖像、不完整的路標(biāo)、甚至是拍攝時(shí)的天氣條件變化。這些看似"缺陷"的因素實(shí)際上讓智能體變得更加robust,更接近人類在現(xiàn)實(shí)中面臨的挑戰(zhàn)。智能體需要學(xué)會(huì)從四個(gè)方向的街景圖像中提取有用信息,理解相鄰地點(diǎn)之間的空間關(guān)系,并根據(jù)距離和方向信息做出導(dǎo)航?jīng)Q策。
室內(nèi)環(huán)境模塊則扮演了"精工坊"的角色?;贏I2-THOR平臺(tái),研究團(tuán)隊(duì)創(chuàng)建了高度逼真的廚房場(chǎng)景,其中包含了各種食材、烹飪?cè)O(shè)備和存儲(chǔ)容器。這個(gè)環(huán)境的精妙之處在于,它不僅僅是靜態(tài)的3D模型,而是一個(gè)動(dòng)態(tài)的物理仿真系統(tǒng)。當(dāng)智能體切西紅柿?xí)r,西紅柿?xí)娴谋环殖蓭讐K;當(dāng)它加熱食物時(shí),食物的狀態(tài)會(huì)發(fā)生相應(yīng)變化;當(dāng)它打開(kāi)冰箱時(shí),里面的物品布局會(huì)根據(jù)之前的操作而改變。
這種動(dòng)態(tài)特性使得烹飪?nèi)蝿?wù)變得極具挑戰(zhàn)性。智能體不僅需要理解"將雞蛋煎至半熟"這樣的指令,還需要通過(guò)視覺(jué)觀察來(lái)判斷雞蛋是否達(dá)到了理想狀態(tài)。它需要學(xué)會(huì)協(xié)調(diào)多個(gè)任務(wù):一邊攪拌湯,一邊觀察面包的烘烤程度,同時(shí)還要記住食譜中的下一個(gè)步驟。這種多任務(wù)協(xié)調(diào)能力正是人類烹飪技能的核心,也是傳統(tǒng)AI系統(tǒng)難以掌握的。
網(wǎng)絡(luò)環(huán)境模塊則充當(dāng)了"信息中樞"的作用。研究團(tuán)隊(duì)沒(méi)有簡(jiǎn)單地使用現(xiàn)有的網(wǎng)站,而是精心設(shè)計(jì)了五個(gè)功能性網(wǎng)站,每個(gè)都針對(duì)特定的任務(wù)需求。食譜網(wǎng)站不僅提供烹飪步驟,還支持基于食材、飲食偏好和難度級(jí)別的智能篩選。購(gòu)物網(wǎng)站模擬了完整的電商體驗(yàn),包括商品搜索、價(jià)格比較、購(gòu)物車管理和結(jié)賬流程。地圖網(wǎng)站基于OpenStreetMap,提供交互式的位置搜索和路線規(guī)劃功能。
最有趣的是,這些網(wǎng)站之間通過(guò)一個(gè)中央"主頁(yè)"連接,模擬了真實(shí)的網(wǎng)絡(luò)瀏覽體驗(yàn)。智能體可以在不同網(wǎng)站之間切換,打開(kāi)多個(gè)瀏覽器標(biāo)簽,甚至需要處理網(wǎng)頁(yè)加載時(shí)間和網(wǎng)絡(luò)連接問(wèn)題。這種設(shè)計(jì)讓智能體的網(wǎng)絡(luò)行為更加接近人類,需要學(xué)會(huì)管理注意力和記憶,在復(fù)雜的信息環(huán)境中保持任務(wù)焦點(diǎn)。
系統(tǒng)的核心創(chuàng)新在于"狀態(tài)同步"機(jī)制。當(dāng)智能體在物理環(huán)境中發(fā)現(xiàn)缺少某種食材時(shí),這個(gè)信息不僅會(huì)影響其在廚房中的行為,還會(huì)自動(dòng)觸發(fā)網(wǎng)絡(luò)搜索任務(wù)。智能體會(huì)訪問(wèn)購(gòu)物網(wǎng)站,查找該食材的可用性和價(jià)格,甚至?xí)紤]配送時(shí)間對(duì)整個(gè)烹飪計(jì)劃的影響。這種跨域信息流動(dòng)是傳統(tǒng)AI系統(tǒng)無(wú)法實(shí)現(xiàn)的,它要求系統(tǒng)在不同的狀態(tài)空間之間建立動(dòng)態(tài)映射關(guān)系。
更令人印象深刻的是"上下文保持"能力。在復(fù)雜的跨域任務(wù)中,智能體需要記住大量的上下文信息:食譜的步驟、購(gòu)物清單、導(dǎo)航指令、時(shí)間約束等等。傳統(tǒng)的AI系統(tǒng)往往在任務(wù)切換時(shí)丟失這些信息,但具身網(wǎng)絡(luò)智能體通過(guò)創(chuàng)新的記憶架構(gòu),能夠在不同操作模式之間保持完整的任務(wù)上下文。比如,在前往商店購(gòu)買食材的路上,它依然記得回到廚房后需要進(jìn)行的具體烹飪步驟。
四、五大挑戰(zhàn)場(chǎng)景:讓AI接受"現(xiàn)實(shí)世界大考"
為了全面測(cè)試具身網(wǎng)絡(luò)智能體的能力,UCLA團(tuán)隊(duì)精心設(shè)計(jì)了五個(gè)不同的挑戰(zhàn)場(chǎng)景,每個(gè)場(chǎng)景都模擬了人類日常生活中需要跨域思維的典型情況。這些測(cè)試不僅要求智能體掌握單一技能,更要考驗(yàn)它們?cè)趶?fù)雜現(xiàn)實(shí)情境中的綜合應(yīng)變能力。
導(dǎo)航任務(wù)就像給智能體上了一堂"現(xiàn)實(shí)地理課"。這些任務(wù)遠(yuǎn)比簡(jiǎn)單的"從A點(diǎn)到B點(diǎn)"復(fù)雜得多。智能體需要先在OpenStreetMap網(wǎng)站上輸入起點(diǎn)和終點(diǎn),理解生成的路線指示,然后在真實(shí)的街景環(huán)境中按照這些指示進(jìn)行移動(dòng)。聽(tīng)起來(lái)簡(jiǎn)單,但實(shí)際操作中卻充滿挑戰(zhàn)。網(wǎng)絡(luò)地圖可能顯示"向東走300米后左轉(zhuǎn)",但在實(shí)際街景中,智能體需要識(shí)別哪個(gè)方向是東,如何判斷已經(jīng)走了大約300米,以及在眾多的分岔路口中選擇正確的左轉(zhuǎn)方向。
更復(fù)雜的是,網(wǎng)絡(luò)信息和現(xiàn)實(shí)觀察之間經(jīng)常出現(xiàn)不一致。地圖上顯示的直路在現(xiàn)實(shí)中可能因?yàn)槭┕ざ环忾],標(biāo)注的商店可能已經(jīng)搬遷,甚至街道名稱在地圖和實(shí)際路標(biāo)之間可能存在差異。智能體需要學(xué)會(huì)在這種不確定性中做出合理的決策,既要相信網(wǎng)絡(luò)信息的總體指導(dǎo),又要根據(jù)實(shí)際觀察靈活調(diào)整路線。
購(gòu)物任務(wù)則將智能體推入了"消費(fèi)決策"的復(fù)雜世界。這不僅僅是找到商品并點(diǎn)擊購(gòu)買那么簡(jiǎn)單,而是需要綜合考慮多個(gè)因素的優(yōu)化問(wèn)題。比如,任務(wù)可能要求智能體"購(gòu)買最便宜的有機(jī)雞蛋",這就需要它在購(gòu)物網(wǎng)站上比較不同商家的價(jià)格,理解"有機(jī)"這個(gè)概念,并考慮配送費(fèi)用和配送時(shí)間等隱性成本。
最有趣的是,購(gòu)物任務(wù)往往與導(dǎo)航任務(wù)相互交織。智能體可能需要比較在線購(gòu)買和實(shí)體店購(gòu)買的優(yōu)劣,這就要求它能夠計(jì)算前往不同商店的時(shí)間成本,評(píng)估商品的即時(shí)可得性,甚至考慮購(gòu)物體驗(yàn)的差異。有些任務(wù)還要求智能體在多個(gè)瀏覽器標(biāo)簽之間切換,同時(shí)管理購(gòu)物網(wǎng)站和地圖網(wǎng)站,這種多任務(wù)處理能力對(duì)AI系統(tǒng)來(lái)說(shuō)是極大的挑戰(zhàn)。
旅游任務(wù)將智能體變成了"文化探索者"。這類任務(wù)通常從一個(gè)簡(jiǎn)單的導(dǎo)航請(qǐng)求開(kāi)始,比如"從現(xiàn)代藝術(shù)博物館走到洛克菲勒中心",但在途中會(huì)遇到各種有趣的建筑物或地標(biāo)。智能體需要識(shí)別這些地標(biāo),然后主動(dòng)使用Wikipedia搜索相關(guān)信息。比如,當(dāng)它遇到一座哥特式建筑時(shí),需要拍照記錄,搜索該建筑的歷史背景,了解哥特式建筑風(fēng)格的特點(diǎn),甚至可能需要在Reddit等社交平臺(tái)上分享自己的發(fā)現(xiàn)和感受。
這種任務(wù)的難點(diǎn)在于"主動(dòng)探索"和"知識(shí)整合"。與傳統(tǒng)的被動(dòng)式信息檢索不同,智能體需要學(xué)會(huì)在物理探索過(guò)程中主動(dòng)識(shí)別值得關(guān)注的對(duì)象,然后將視覺(jué)觀察與網(wǎng)絡(luò)知識(shí)進(jìn)行匹配。它需要理解"這座建筑看起來(lái)很特別"這種抽象概念,并將其轉(zhuǎn)化為具體的搜索查詢。更重要的是,它需要將獲得的信息與實(shí)際觀察相結(jié)合,形成完整的理解。
烹飪?nèi)蝿?wù)可能是所有挑戰(zhàn)中最復(fù)雜的,因?yàn)樗枰_的物理操作和持續(xù)的狀態(tài)監(jiān)控。智能體需要在食譜網(wǎng)站上找到合適的菜譜,理解復(fù)雜的烹飪指令,然后在廚房中執(zhí)行這些指令。但現(xiàn)實(shí)中的烹飪遠(yuǎn)比食譜描述的復(fù)雜:不同的爐灶溫度不同,食材的新鮮程度會(huì)影響烹飪時(shí)間,甚至環(huán)境濕度都可能影響最終效果。
最有挑戰(zhàn)性的是"動(dòng)態(tài)適應(yīng)"要求。當(dāng)智能體發(fā)現(xiàn)缺少某種食材時(shí),它不能簡(jiǎn)單地停止任務(wù),而是需要決定是尋找替代品、在線訂購(gòu)、還是調(diào)整整個(gè)菜譜。這種決策需要綜合考慮時(shí)間約束、成本效益、味道影響等多個(gè)因素。有時(shí)智能體甚至需要在烹飪過(guò)程中暫停,上網(wǎng)搜索"如果沒(méi)有百里香可以用什么代替"這樣的具體問(wèn)題。
地理定位任務(wù)則將智能體變成了"地理偵探"。與傳統(tǒng)的圖像識(shí)別不同,這種任務(wù)允許智能體在環(huán)境中自由移動(dòng),收集多角度的視覺(jué)信息,并結(jié)合網(wǎng)絡(luò)搜索來(lái)推斷自己的位置。比如,智能體可能看到一個(gè)寫著"109"的商店招牌,然后搜索"109商店",發(fā)現(xiàn)這是日本澀谷的著名地標(biāo),從而推斷出自己在東京。
這種任務(wù)的精妙之處在于"信息融合"和"推理鏈構(gòu)建"。智能體需要將多個(gè)看似無(wú)關(guān)的線索串聯(lián)起來(lái):建筑風(fēng)格、文字符號(hào)、植被類型、天氣狀況等等,然后通過(guò)網(wǎng)絡(luò)搜索驗(yàn)證自己的推測(cè)。更有趣的是,即使網(wǎng)絡(luò)搜索結(jié)果不夠準(zhǔn)確,搜索過(guò)程本身也會(huì)幫助智能體形成更清晰的推理思路。
五、當(dāng)最強(qiáng)AI遭遇現(xiàn)實(shí):令人深思的測(cè)試結(jié)果
當(dāng)研究團(tuán)隊(duì)將當(dāng)前最先進(jìn)的AI模型—包括GPT-4o、Gemini 2.0 Flash、Qwen-VL-Plus和InternVL2.5—投入到這些跨域挑戰(zhàn)中時(shí),結(jié)果既令人驚訝又發(fā)人深省。這些在單一領(lǐng)域表現(xiàn)出色的AI巨頭,在面對(duì)需要跨域協(xié)作的現(xiàn)實(shí)任務(wù)時(shí),表現(xiàn)得就像剛學(xué)會(huì)走路的孩子一樣磕磕絆絆。
在導(dǎo)航任務(wù)中,表現(xiàn)最好的GPT-4o僅達(dá)到了34.72%的總體成功率,這意味著即使是最先進(jìn)的AI,在十次導(dǎo)航任務(wù)中也會(huì)失敗六次以上。更有趣的是,這些AI在處理網(wǎng)絡(luò)部分(比如理解地圖指示)時(shí)表現(xiàn)相對(duì)較好,達(dá)到了69.44%的成功率,但一旦需要將這些指示轉(zhuǎn)化為實(shí)際的物理移動(dòng),成功率就大幅下降到48.61%。這就像一個(gè)人能夠完美地閱讀菜譜,但一進(jìn)廚房就手忙腳亂。
購(gòu)物任務(wù)的結(jié)果更加令人擔(dān)憂。GPT-4o的總體成功率只有25.46%,這意味著在四次購(gòu)物任務(wù)中,AI會(huì)失敗三次??紤]到在線購(gòu)物已經(jīng)是人類的日常活動(dòng),這樣的成功率顯然遠(yuǎn)遠(yuǎn)不夠?qū)嵱?。?wèn)題的核心在于,AI需要同時(shí)處理價(jià)格比較、庫(kù)存查詢、配送選擇等多個(gè)變量,然后還要將在線購(gòu)買決策與實(shí)際的物理位置(比如商店距離)相結(jié)合。
最令人印象深刻的是烹飪?nèi)蝿?wù)的測(cè)試結(jié)果。在這個(gè)最復(fù)雜的跨域挑戰(zhàn)中,即使是表現(xiàn)最好的GPT-4o,其總體成功率也僅有6.4%,而人類的成功率達(dá)到了77.08%。這個(gè)巨大的差距暴露了當(dāng)前AI在處理復(fù)雜多步驟任務(wù)時(shí)的根本性局限。更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)使用文本形式(而非視覺(jué)形式)描述環(huán)境狀態(tài)時(shí),AI的表現(xiàn)會(huì)有所改善,這說(shuō)明當(dāng)前的視覺(jué)理解能力仍然是AI的一個(gè)重要瓶頸。
然而,最令人鼓舞的結(jié)果來(lái)自地理定位任務(wù)。在這個(gè)任務(wù)中,具身網(wǎng)絡(luò)智能體的表現(xiàn)顯著超越了僅使用靜態(tài)圖像的傳統(tǒng)方法。比如,GPT-4o在靜態(tài)圖像定位中只能達(dá)到1.41%的精確定位率,但在允許移動(dòng)和網(wǎng)絡(luò)搜索的具身環(huán)境中,這個(gè)數(shù)字躍升到了3.52%。雖然絕對(duì)數(shù)字仍然不高,但這種提升證明了跨域協(xié)作的潛在價(jià)值。
深入分析這些失敗案例,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要模式:AI的主要問(wèn)題不在于單一領(lǐng)域的技能缺失,而在于跨域協(xié)調(diào)的困難。在烹飪?nèi)蝿?wù)的錯(cuò)誤分析中,66.6%的失敗都源于"跨域錯(cuò)誤",比如智能體在網(wǎng)絡(luò)和物理環(huán)境之間切換時(shí)出現(xiàn)混亂,或者無(wú)法將網(wǎng)絡(luò)指示正確映射到物理操作上。
最常見(jiàn)的失敗模式是"單域陷阱"。在23.6%的失敗案例中,智能體會(huì)困在物理環(huán)境中重復(fù)執(zhí)行無(wú)意義的動(dòng)作,完全忘記了需要返回網(wǎng)絡(luò)獲取下一步指示。另外13.2%的失敗則相反,智能體會(huì)困在網(wǎng)絡(luò)環(huán)境中無(wú)休止地點(diǎn)擊"下一步",而忘記了需要回到物理世界執(zhí)行實(shí)際操作。這種行為就像一個(gè)人在廚房里反復(fù)攪拌空鍋,或者在手機(jī)上無(wú)休止地刷食譜而從不開(kāi)始烹飪。
還有一類有趣的失敗是"指令-行動(dòng)錯(cuò)位",占總失敗的11.8%。智能體可能理解了"切蘋果"的指令,但實(shí)際上卻去切生菜。這種錯(cuò)誤暴露了當(dāng)前AI在將抽象語(yǔ)言指令轉(zhuǎn)化為具體物理行動(dòng)時(shí)的困難。它們就像一個(gè)聽(tīng)力很好但手眼協(xié)調(diào)有問(wèn)題的人,能夠完美理解指示,但在執(zhí)行時(shí)卻出現(xiàn)偏差。
更深層的問(wèn)題在于"上下文丟失"。在長(zhǎng)期的跨域任務(wù)中,智能體往往會(huì)忘記之前的操作歷史或當(dāng)前的任務(wù)目標(biāo)。比如,在購(gòu)買食材后返回廚房時(shí),它可能已經(jīng)忘記了最初想要制作的菜品,或者在查詢建筑歷史后忘記了原本的導(dǎo)航目標(biāo)。這種短期記憶問(wèn)題在人類中也存在,但AI的情況更加嚴(yán)重。
六、展望未來(lái):跨域智能的無(wú)限可能
盡管當(dāng)前的測(cè)試結(jié)果顯示了巨大的挑戰(zhàn),但UCLA團(tuán)隊(duì)的研究為AI發(fā)展開(kāi)辟了一個(gè)全新的方向。具身網(wǎng)絡(luò)智能體的概念不僅僅是技術(shù)創(chuàng)新,更是對(duì)AI未來(lái)形態(tài)的重新想象。這種能夠同時(shí)駕馭數(shù)字世界和物理世界的智能體,可能會(huì)在未來(lái)幾年內(nèi)徹底改變我們與AI交互的方式。
從技術(shù)角度來(lái)看,這項(xiàng)研究暴露了當(dāng)前AI技術(shù)的幾個(gè)關(guān)鍵瓶頸,同時(shí)也指明了解決方向。首先是"跨域狀態(tài)管理"問(wèn)題。未來(lái)的AI系統(tǒng)需要開(kāi)發(fā)更強(qiáng)大的記憶架構(gòu),能夠在不同操作模式之間保持完整的任務(wù)上下文。這可能需要借鑒人類大腦中海馬體的工作機(jī)制,開(kāi)發(fā)能夠動(dòng)態(tài)編碼和檢索跨域信息的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
其次是"多模態(tài)融合"能力的提升。當(dāng)前的AI在將視覺(jué)信息、文本信息和空間信息進(jìn)行整合時(shí)仍然存在困難。未來(lái)的系統(tǒng)需要能夠像人類一樣,將"這個(gè)蘋果看起來(lái)很新鮮"的視覺(jué)判斷與"食譜要求使用新鮮蘋果"的文本信息無(wú)縫結(jié)合,并據(jù)此做出合理的行動(dòng)決策。
從應(yīng)用前景來(lái)看,具身網(wǎng)絡(luò)智能體可能會(huì)催生全新的AI應(yīng)用模式。在教育領(lǐng)域,這種智能體可以成為真正的"實(shí)踐導(dǎo)師",不僅傳授理論知識(shí),還能在現(xiàn)實(shí)環(huán)境中指導(dǎo)學(xué)生進(jìn)行實(shí)際操作。比如,一個(gè)化學(xué)學(xué)習(xí)智能體可以在網(wǎng)絡(luò)上查找實(shí)驗(yàn)原理,然后在實(shí)驗(yàn)室中指導(dǎo)學(xué)生安全地進(jìn)行實(shí)驗(yàn)操作。
在醫(yī)療保健領(lǐng)域,具身網(wǎng)絡(luò)智能體可能會(huì)成為"全能護(hù)理助手"。它們可以在網(wǎng)絡(luò)上查找最新的醫(yī)療指南,然后在現(xiàn)實(shí)中協(xié)助醫(yī)生進(jìn)行診斷和治療。更重要的是,它們可以在家庭環(huán)境中提供持續(xù)的健康監(jiān)護(hù),根據(jù)在線健康數(shù)據(jù)和實(shí)際觀察來(lái)調(diào)整護(hù)理方案。
在城市管理方面,這種智能體可能會(huì)成為"智慧城市的神經(jīng)系統(tǒng)"。它們可以同時(shí)監(jiān)控網(wǎng)絡(luò)數(shù)據(jù)流和物理基礎(chǔ)設(shè)施,在發(fā)現(xiàn)問(wèn)題時(shí)能夠快速協(xié)調(diào)線上資源和線下行動(dòng)。比如,當(dāng)檢測(cè)到某個(gè)區(qū)域的空氣質(zhì)量下降時(shí),智能體可以同時(shí)調(diào)用網(wǎng)絡(luò)數(shù)據(jù)分析污染源,并協(xié)調(diào)實(shí)際的環(huán)境治理行動(dòng)。
然而,這種技術(shù)發(fā)展也帶來(lái)了新的挑戰(zhàn)和思考。首先是隱私保護(hù)問(wèn)題。具身網(wǎng)絡(luò)智能體需要同時(shí)訪問(wèn)用戶的物理環(huán)境和網(wǎng)絡(luò)活動(dòng),這可能會(huì)帶來(lái)前所未有的隱私風(fēng)險(xiǎn)。如何在提供智能服務(wù)的同時(shí)保護(hù)用戶隱私,將成為一個(gè)重要的技術(shù)和法律挑戰(zhàn)。
其次是"雙重幻覺(jué)"問(wèn)題。傳統(tǒng)的AI可能在單一領(lǐng)域產(chǎn)生錯(cuò)誤信息,但跨域AI可能會(huì)在兩個(gè)領(lǐng)域同時(shí)產(chǎn)生錯(cuò)誤,并且這些錯(cuò)誤可能會(huì)相互強(qiáng)化。比如,智能體可能錯(cuò)誤地識(shí)別了某個(gè)地標(biāo),然后基于這個(gè)錯(cuò)誤識(shí)別在網(wǎng)絡(luò)上搜索了錯(cuò)誤信息,最終形成完全偏離現(xiàn)實(shí)的認(rèn)知。
最重要的是,我們需要重新思考人機(jī)關(guān)系。當(dāng)AI能夠同時(shí)在數(shù)字世界和物理世界中行動(dòng)時(shí),它們可能會(huì)對(duì)人類的生活產(chǎn)生更加深刻和直接的影響。如何確保這種影響是積極的,如何在享受智能便利的同時(shí)保持人類的自主性和創(chuàng)造性,這些都是需要深入探討的問(wèn)題。
說(shuō)到底,UCLA團(tuán)隊(duì)的這項(xiàng)研究雖然揭示了當(dāng)前AI技術(shù)的局限性,但更重要的是,它為我們描繪了一個(gè)AI與人類更加緊密協(xié)作的未來(lái)圖景。在這個(gè)圖景中,AI不再是被動(dòng)的工具,而是能夠主動(dòng)理解和參與人類活動(dòng)的智能伙伴。雖然距離這個(gè)目標(biāo)還有很長(zhǎng)的路要走,但這項(xiàng)研究已經(jīng)為我們指明了前進(jìn)的方向。
通過(guò)構(gòu)建這個(gè)包含1500多個(gè)跨域任務(wù)的綜合測(cè)試平臺(tái),研究團(tuán)隊(duì)不僅創(chuàng)造了一個(gè)評(píng)估AI跨域能力的標(biāo)準(zhǔn),更為整個(gè)AI研究社區(qū)提供了一個(gè)新的研究范式。未來(lái)的AI研究可能會(huì)越來(lái)越關(guān)注這種"統(tǒng)一智能"的發(fā)展,而不是繼續(xù)在分離的領(lǐng)域中各自為政。這種轉(zhuǎn)向可能會(huì)帶來(lái)AI技術(shù)的重大突破,最終實(shí)現(xiàn)真正能夠理解和適應(yīng)復(fù)雜現(xiàn)實(shí)世界的智能系統(tǒng)。
Q&A
Q1:具身網(wǎng)絡(luò)智能體是什么?它和普通AI有什么區(qū)別? A:具身網(wǎng)絡(luò)智能體是一種能夠同時(shí)在現(xiàn)實(shí)世界和網(wǎng)絡(luò)世界中行動(dòng)的AI系統(tǒng)。與傳統(tǒng)AI不同,它不僅能搜索網(wǎng)絡(luò)信息、理解文本,還能在現(xiàn)實(shí)環(huán)境中移動(dòng)、觀察、操作物品。就像給AI裝上了"身體"和"網(wǎng)絡(luò)連接",讓它既能動(dòng)手又能動(dòng)腦。
Q2:這種AI技術(shù)現(xiàn)在能實(shí)際應(yīng)用嗎?成功率怎么樣? A:目前還不能實(shí)際應(yīng)用。測(cè)試顯示,即使是最先進(jìn)的AI模型,在跨域任務(wù)中的成功率也很低。比如在烹飪?nèi)蝿?wù)中,GPT-4o的成功率只有6.4%,而人類達(dá)到77%。主要問(wèn)題是AI無(wú)法很好地在物理操作和網(wǎng)絡(luò)搜索之間協(xié)調(diào)。
Q3:這項(xiàng)研究對(duì)未來(lái)AI發(fā)展有什么意義? A:這項(xiàng)研究開(kāi)創(chuàng)了AI研究的新方向,即"統(tǒng)一智能"。它揭示了當(dāng)前AI的關(guān)鍵局限—無(wú)法跨域協(xié)作,并提供了解決思路。未來(lái)可能應(yīng)用于智能家居、醫(yī)療護(hù)理、教育等領(lǐng)域,讓AI成為真正能理解和參與人類復(fù)雜活動(dòng)的智能伙伴。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。