這項由微軟研究院的張苗森、徐子強、朱家良等十一位研究者團隊完成的突破性研究發(fā)表于2025年1月31日,論文標題為《Phi-Ground Tech Report: Advancing Perception in GUI Grounding》。有興趣深入了解的讀者可以通過arXiv:2507.23779v1訪問完整論文。這項研究解決了一個看似簡單但實際極其復(fù)雜的問題:如何讓AI助手像人類一樣準確地在電腦屏幕上找到并點擊正確的按鈕。
想象一下,你有一個非常聰明的朋友,他能理解你說的每一句話,也知道該如何完成各種電腦任務(wù),但有一個致命缺陷——他是個"色盲",看不清屏幕上密密麻麻的按鈕到底哪個是哪個。這正是當前AI助手面臨的核心問題。雖然它們在理解人類指令方面已經(jīng)相當出色,但在"看懂"電腦界面這件事上,表現(xiàn)卻差強人意。
研究團隊發(fā)現(xiàn),目前最先進的AI模型在一些具有挑戰(zhàn)性的測試中,準確率還不到65%。這意味著每三次操作就有一次以上會出錯,這樣的錯誤率顯然無法滿足日常使用需求。更糟糕的是,AI的錯誤往往不是隨機的胡亂點擊,而是會精確地點擊到一些看起來"合理"但實際錯誤的地方,這可能導(dǎo)致更嚴重的后果,比如誤刪重要文件或關(guān)閉未保存的工作。
為了解決這個問題,微軟團隊深入研究了AI"視覺定位"的方方面面。他們沒有簡單地訓(xùn)練一個"萬能"模型,而是采用了一種類似"專業(yè)分工"的策略。就像一個高效的工廠流水線,他們將復(fù)雜的任務(wù)分解為兩個專門的環(huán)節(jié):首先讓一個"規(guī)劃師"AI負責理解用戶意圖并生成詳細的操作描述,然后讓另一個專門的"定位師"AI根據(jù)這些描述在屏幕上找到準確的點擊位置。
這種分工策略帶來了顯著的效果提升。在他們最嚴格的測試中,新模型在ScreenSpot-pro基準測試上達到了55.0分的準確率,在UI-Vision測試中達到了36.2分,這些成績都創(chuàng)下了同類模型的最佳記錄。更重要的是,這些改進不僅僅是數(shù)字上的提升,而是實實在在地讓AI助手在日常使用中變得更加可靠。
研究團隊還發(fā)現(xiàn)了許多有趣的技術(shù)細節(jié)。比如,他們意外地發(fā)現(xiàn),給AI輸入信息的順序竟然會顯著影響其表現(xiàn)。當他們先給AI看文字指令,再給它看屏幕圖像時,AI的表現(xiàn)明顯優(yōu)于相反的順序。這就像人類閱讀理解一樣,當我們先知道要找什么,再去看圖片時,往往能更快更準確地找到目標。
另一個重要發(fā)現(xiàn)是關(guān)于訓(xùn)練數(shù)據(jù)的分布。團隊發(fā)現(xiàn),不同來源的數(shù)據(jù)有著截然不同的"習慣"。網(wǎng)頁抓取的數(shù)據(jù)幾乎沒有右側(cè)按鈕,因為網(wǎng)頁設(shè)計通常把重要功能放在左側(cè);而桌面應(yīng)用的數(shù)據(jù)分布則更加均勻。這種差異如果不加處理,會讓AI產(chǎn)生偏見,在某些場景下表現(xiàn)不佳。為了解決這個問題,研究團隊開發(fā)了專門的數(shù)據(jù)重新采樣算法,確保AI能在各種界面布局下都保持穩(wěn)定的表現(xiàn)。
在訓(xùn)練過程中,團隊嘗試了許多看似合理但實際效果有限的技術(shù)。例如,他們原本以為將坐標表示為特殊的數(shù)字符號會更精確,就像給每個位置一個專門的"地址編碼"。但實驗結(jié)果顯示,這種做法反而會讓模型訓(xùn)練變得不穩(wěn)定。最終,他們發(fā)現(xiàn)最簡單直接的方法——用普通文字描述坐標位置——反而效果最好。這個發(fā)現(xiàn)提醒我們,在AI技術(shù)發(fā)展中,復(fù)雜并不總是意味著更好。
團隊還深入研究了數(shù)據(jù)增強技術(shù)的效果。在傳統(tǒng)的計算機視覺任務(wù)中,隨機裁剪和縮放圖像是常用的提升模型性能的手段。但在GUI定位這個特殊場景中,這些技術(shù)的效果并不明顯,只有在處理高分辨率屏幕時才顯示出一些優(yōu)勢。這說明GUI定位任務(wù)有其獨特性,不能簡單套用其他視覺任務(wù)的經(jīng)驗。
在模型規(guī)模和計算效率的平衡方面,研究團隊提出了一個重要觀點:在比較不同模型時,不應(yīng)該只看參數(shù)數(shù)量,還要考慮實際推理時的計算成本。他們發(fā)現(xiàn),圖像分辨率對模型性能有重要影響,但也會顯著增加計算量。通過綜合考慮性能和效率,他們?yōu)椴煌瑧?yīng)用場景找到了最優(yōu)的模型配置方案。
為了驗證模型的實際效果,研究團隊在五個不同的測試集上進行了全面評估。這些測試集涵蓋了手機應(yīng)用、桌面軟件、網(wǎng)頁等各種場景,確保模型在真實使用環(huán)境中的可靠性。結(jié)果顯示,Phi-Ground模型在所有測試中都達到了業(yè)界領(lǐng)先水平,特別是在需要專業(yè)軟件操作的高難度場景中表現(xiàn)尤為出色。
在錯誤分析方面,團隊進行了詳細的案例研究。他們發(fā)現(xiàn),當前模型的錯誤主要來自幾個方面:缺乏空間推理能力、在復(fù)雜界面中容易混淆相似元素、以及在處理非英語界面時的局限性。通過分析這些錯誤模式,團隊為未來的改進指明了方向。
這項研究的意義遠超技術(shù)本身。隨著AI助手越來越多地進入我們的日常生活,它們能否準確理解和操作我們的數(shù)字界面,直接關(guān)系到用戶體驗和工作效率。微軟的這項突破為構(gòu)建真正實用的AI助手奠定了重要基礎(chǔ),讓我們離擁有一個能夠熟練操作電腦的AI伙伴又近了一步。
當然,這項技術(shù)的發(fā)展也帶來了一些需要思考的問題。研究團隊坦誠地指出,AI助手在操作電腦時可能會執(zhí)行一些不可逆的危險操作,如刪除重要文件。此外,為了實現(xiàn)精確操作,AI助手可能需要截取用戶的屏幕內(nèi)容,這涉及隱私保護問題。這些挑戰(zhàn)需要在技術(shù)進步的同時得到妥善解決。
展望未來,這項研究不僅推動了GUI定位技術(shù)的發(fā)展,也為其他多模態(tài)感知任務(wù)提供了寶貴經(jīng)驗。隨著技術(shù)的不斷完善,我們有理由期待更加智能、可靠的AI助手將真正融入我們的數(shù)字生活,成為提升工作和生活效率的得力助手。
Q&A
Q1:Phi-Ground模型是什么?它解決了什么問題?
A:Phi-Ground是微軟開發(fā)的一個AI模型,專門解決讓AI助手準確在電腦屏幕上找到并點擊正確按鈕的問題。目前的AI助手雖然能理解指令,但在"看懂"電腦界面方面表現(xiàn)不佳,準確率不到65%,Phi-Ground通過專門的訓(xùn)練大幅提升了這一能力。
Q2:這個技術(shù)是如何工作的?
A:Phi-Ground采用兩階段策略:先用一個"規(guī)劃師"AI理解用戶意圖并生成詳細操作描述,再用專門的"定位師"AI根據(jù)描述在屏幕上找到準確位置。這種分工協(xié)作的方式比單一模型處理所有任務(wù)更加高效準確。
Q3:這項技術(shù)什么時候能在日常生活中使用?
A:雖然Phi-Ground在測試中表現(xiàn)出色,但研究團隊指出仍需解決一些挑戰(zhàn),包括防止AI執(zhí)行危險操作和保護用戶隱私等問題。目前這項技術(shù)更多還是為未來更智能的AI助手奠定基礎(chǔ),距離大規(guī)模日常應(yīng)用還需要一定時間。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。