av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 小米研究院推出革命性GUI自動(dòng)化框架:讓AI像人一樣"眨眼-思考-執(zhí)行"操作界面

小米研究院推出革命性GUI自動(dòng)化框架:讓AI像人一樣"眨眼-思考-執(zhí)行"操作界面

2025-10-09 12:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-09 12:19 ? 科技行者

這項(xiàng)由小米公司MiLM Plus團(tuán)隊(duì)的張紹杰、張若增、付培等研究人員共同開(kāi)展的突破性研究,發(fā)表于2025年1月的arXiv預(yù)印本平臺(tái)。該研究提出了名為BTL-UI(Blink-Think-Link)的全新GUI智能代理框架,感興趣的讀者可以通過(guò)arXiv:2509.15566v1訪問(wèn)完整論文,或訪問(wèn)項(xiàng)目地址https://github.com/xiaomi-research/btl-ui了解更多技術(shù)細(xì)節(jié)。

近年來(lái),人工智能在各個(gè)領(lǐng)域都取得了驚人進(jìn)展,但在一個(gè)看似簡(jiǎn)單卻極其重要的任務(wù)上卻始終存在挑戰(zhàn):讓AI像人類(lèi)一樣自然地操作電腦和手機(jī)界面。想象一下,如果你的智能助手能夠真正理解你的指令,然后像你一樣熟練地點(diǎn)擊、滑動(dòng)、輸入文字來(lái)完成各種任務(wù),那將是多么便利的體驗(yàn)。然而,現(xiàn)實(shí)中的AI代理在操作圖形用戶界面時(shí),往往表現(xiàn)得僵硬笨拙,缺乏人類(lèi)那種直覺(jué)性的交互流暢感。

小米研究團(tuán)隊(duì)敏銳地觀察到了這個(gè)問(wèn)題的核心所在。他們發(fā)現(xiàn),當(dāng)前的AI系統(tǒng)在處理界面操作時(shí),思維模式與人類(lèi)存在根本性差異。人類(lèi)在看到一個(gè)界面時(shí),會(huì)本能地快速掃視尋找相關(guān)元素,然后在大腦中進(jìn)行邏輯推理,最后精準(zhǔn)地執(zhí)行操作動(dòng)作。這個(gè)過(guò)程看似簡(jiǎn)單,實(shí)際上包含了復(fù)雜的認(rèn)知機(jī)制。而現(xiàn)有的AI系統(tǒng)要么過(guò)分依賴(lài)大量標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),要么采用結(jié)果導(dǎo)向的強(qiáng)化學(xué)習(xí)方法,都無(wú)法真正模擬人類(lèi)這種自然的認(rèn)知流程。

正是基于這一洞察,研究團(tuán)隊(duì)提出了顛覆性的"眨眼-思考-執(zhí)行"(Blink-Think-Link,簡(jiǎn)稱(chēng)BTL)框架。這個(gè)框架巧妙地將人類(lèi)的界面操作過(guò)程分解為三個(gè)生物學(xué)上合理的階段。首先是"眨眼"階段,AI會(huì)像人類(lèi)進(jìn)行眼球快速掃視運(yùn)動(dòng)一樣,迅速定位屏幕上與任務(wù)相關(guān)的區(qū)域。接著是"思考"階段,系統(tǒng)進(jìn)行高層次的推理和決策制定,就如同人類(lèi)大腦中的認(rèn)知規(guī)劃過(guò)程。最后是"執(zhí)行"階段,生成精確的可執(zhí)行命令,模擬人類(lèi)精細(xì)的動(dòng)作控制機(jī)制。

這種仿生學(xué)的設(shè)計(jì)理念并非空中樓閣。研究團(tuán)隊(duì)深入研究了認(rèn)知科學(xué)文獻(xiàn),發(fā)現(xiàn)人類(lèi)在進(jìn)行GUI交互時(shí)確實(shí)遵循著這樣的認(rèn)知模式。眼球的跳躍性掃視運(yùn)動(dòng)幫助我們快速鎖定目標(biāo)區(qū)域,大腦的多模態(tài)信息整合能力讓我們能夠理解復(fù)雜的界面布局和任務(wù)要求,而精細(xì)的運(yùn)動(dòng)控制系統(tǒng)則確保我們能夠準(zhǔn)確地完成各種操作動(dòng)作。

為了讓這個(gè)理論框架真正落地,研究團(tuán)隊(duì)開(kāi)發(fā)了兩項(xiàng)關(guān)鍵技術(shù)創(chuàng)新。第一項(xiàng)是自動(dòng)化的"眨眼數(shù)據(jù)生成"流水線。傳統(tǒng)的AI訓(xùn)練需要大量人工標(biāo)注的數(shù)據(jù),成本高昂且容易出錯(cuò)。而這個(gè)新系統(tǒng)能夠自動(dòng)分析屏幕截圖,識(shí)別出與用戶指令最相關(guān)的界面元素,并為這些區(qū)域生成高質(zhì)量的注意力標(biāo)注。這就像給AI裝上了一雙會(huì)自動(dòng)聚焦的眼睛,讓它能夠像人類(lèi)一樣快速找到重點(diǎn)區(qū)域。

第二項(xiàng)創(chuàng)新是全新的"BTL獎(jiǎng)勵(lì)機(jī)制"。以往的強(qiáng)化學(xué)習(xí)系統(tǒng)往往只關(guān)注最終結(jié)果是否正確,就像只看考試成績(jī)而不關(guān)心學(xué)習(xí)過(guò)程一樣。而B(niǎo)TL獎(jiǎng)勵(lì)機(jī)制不僅評(píng)估最終執(zhí)行效果,還對(duì)中間的每個(gè)認(rèn)知階段進(jìn)行細(xì)致評(píng)估。它會(huì)檢查AI是否正確識(shí)別了相關(guān)界面元素,是否進(jìn)行了合理的邏輯推理,以及是否生成了準(zhǔn)確的操作指令。這種過(guò)程導(dǎo)向的獎(jiǎng)勵(lì)設(shè)計(jì)讓AI能夠?qū)W到更加細(xì)致和人性化的操作技巧。

基于這個(gè)創(chuàng)新框架,研究團(tuán)隊(duì)開(kāi)發(fā)了BTL-UI智能代理模型。這個(gè)模型在多個(gè)權(quán)威基準(zhǔn)測(cè)試中都取得了令人矚目的成果。在ScreenSpot系列測(cè)試中,BTL-UI的平均準(zhǔn)確率達(dá)到了87.2%,顯著超越了之前的最佳模型。更重要的是,在復(fù)雜的多步驟任務(wù)中,比如AndroidControl和GUI-Odyssey這樣的真實(shí)環(huán)境測(cè)試,BTL-UI展現(xiàn)出了卓越的規(guī)劃和執(zhí)行能力,成功率分別達(dá)到了69.2%和45.2%。

這些數(shù)字背后代表的是AI在理解和操作復(fù)雜界面方面的重大突破。以往的AI系統(tǒng)在面對(duì)多步驟任務(wù)時(shí),經(jīng)常會(huì)出現(xiàn)點(diǎn)擊錯(cuò)誤位置、過(guò)早終止任務(wù)或者無(wú)法適應(yīng)界面變化等問(wèn)題。而B(niǎo)TL-UI通過(guò)模擬人類(lèi)的認(rèn)知過(guò)程,能夠更加魯棒地處理各種復(fù)雜情況,展現(xiàn)出接近人類(lèi)水平的界面操作能力。

一、仿生認(rèn)知:從人類(lèi)操作模式中汲取靈感

要理解BTL框架的精妙之處,我們需要先了解人類(lèi)是如何與圖形界面進(jìn)行交互的。認(rèn)知科學(xué)研究表明,當(dāng)我們面對(duì)一個(gè)新的應(yīng)用界面時(shí),大腦會(huì)自動(dòng)啟動(dòng)一套精密的信息處理機(jī)制。

首先發(fā)生的是視覺(jué)注意力的快速分配過(guò)程。人類(lèi)的眼球會(huì)進(jìn)行被稱(chēng)為"跳躍性掃視"的快速運(yùn)動(dòng),在短短幾百毫秒內(nèi)掃描整個(gè)屏幕,尋找與當(dāng)前任務(wù)最相關(guān)的視覺(jué)元素。這個(gè)過(guò)程極其高效,我們幾乎感覺(jué)不到它的存在,但它卻是成功完成界面操作的關(guān)鍵第一步。研究發(fā)現(xiàn),熟練的用戶能夠在不到一秒的時(shí)間內(nèi)準(zhǔn)確定位所需的按鈕、菜單或輸入框,即使在復(fù)雜的界面布局中也是如此。

緊接著是高層次的認(rèn)知推理過(guò)程。大腦會(huì)整合來(lái)自視覺(jué)系統(tǒng)的信息,結(jié)合任務(wù)目標(biāo)和以往經(jīng)驗(yàn),制定出詳細(xì)的操作策略。這個(gè)階段涉及復(fù)雜的多模態(tài)信息融合,包括文本理解、圖標(biāo)識(shí)別、空間關(guān)系分析等多個(gè)認(rèn)知層面。比如,當(dāng)我們想要在音樂(lè)應(yīng)用中搜索某首歌曲時(shí),大腦會(huì)自動(dòng)識(shí)別搜索圖標(biāo)的位置,理解當(dāng)前界面的功能結(jié)構(gòu),并規(guī)劃出"點(diǎn)擊搜索-輸入歌名-選擇結(jié)果"這樣的操作序列。

最后是精確的運(yùn)動(dòng)執(zhí)行階段。人類(lèi)的運(yùn)動(dòng)控制系統(tǒng)會(huì)將抽象的操作意圖轉(zhuǎn)化為具體的肌肉動(dòng)作,實(shí)現(xiàn)精準(zhǔn)的點(diǎn)擊、滑動(dòng)或輸入操作。這個(gè)過(guò)程看似簡(jiǎn)單,實(shí)際上需要復(fù)雜的手眼協(xié)調(diào)和實(shí)時(shí)反饋調(diào)節(jié)。即使是最基本的點(diǎn)擊動(dòng)作,也需要精確計(jì)算目標(biāo)位置、調(diào)節(jié)手指力度、控制接觸時(shí)間等多個(gè)參數(shù)。

傳統(tǒng)的AI界面代理通常采用端到端的學(xué)習(xí)方式,試圖直接從屏幕截圖預(yù)測(cè)操作指令,但這種方法忽略了人類(lèi)認(rèn)知過(guò)程的層次性結(jié)構(gòu)。就像試圖讓機(jī)器人直接模仿人類(lèi)走路的表面動(dòng)作,而不理解平衡、協(xié)調(diào)、預(yù)判等內(nèi)在機(jī)制一樣,這種方法很難達(dá)到人類(lèi)水平的靈活性和魯棒性。

BTL框架的革命性在于它明確地將這三個(gè)認(rèn)知階段分離并建模。在"眨眼"階段,系統(tǒng)會(huì)像人類(lèi)進(jìn)行眼球掃視一樣,快速分析整個(gè)屏幕并提取出最相關(guān)的感興趣區(qū)域。這些區(qū)域會(huì)以結(jié)構(gòu)化的方式表示,包含位置信息、元素類(lèi)型、交互性質(zhì)等關(guān)鍵屬性。系統(tǒng)可以選擇0到5個(gè)最相關(guān)的區(qū)域,甚至在某些情況下選擇空集,比如當(dāng)當(dāng)前屏幕沒(méi)有與任務(wù)直接相關(guān)的元素時(shí)。

"思考"階段則專(zhuān)注于高層次的推理和規(guī)劃。系統(tǒng)會(huì)基于提取的感興趣區(qū)域、用戶指令和歷史交互記錄,進(jìn)行邏輯推理和決策制定。這個(gè)過(guò)程類(lèi)似于人類(lèi)的內(nèi)心獨(dú)白,會(huì)明確地表達(dá)推理步驟、考慮的選項(xiàng)以及選擇的理由。比如,系統(tǒng)可能會(huì)推理:"用戶想要更改視頻質(zhì)量設(shè)置,這通常在視頻播放器的設(shè)置菜單中,我需要尋找齒輪圖標(biāo)或三點(diǎn)菜單。"

"執(zhí)行"階段負(fù)責(zé)將抽象的操作意圖轉(zhuǎn)化為具體的可執(zhí)行指令。這包括確定精確的操作類(lèi)型(點(diǎn)擊、滑動(dòng)、輸入等)和相應(yīng)的參數(shù)(坐標(biāo)位置、輸入文本、滑動(dòng)方向等)。系統(tǒng)會(huì)生成結(jié)構(gòu)化的JSON格式指令,確保每個(gè)操作都有明確的執(zhí)行路徑和預(yù)期效果。

這種三階段分解的好處是顯而易見(jiàn)的。首先,它讓AI系統(tǒng)的決策過(guò)程變得更加透明和可解釋。我們可以清楚地看到系統(tǒng)關(guān)注了哪些界面元素,進(jìn)行了什么樣的推理,以及為什么選擇了特定的操作。其次,這種結(jié)構(gòu)化的方法使得訓(xùn)練過(guò)程更加穩(wěn)定和高效,因?yàn)槊總€(gè)階段都有明確的優(yōu)化目標(biāo)和評(píng)估標(biāo)準(zhǔn)。最后,這種仿生設(shè)計(jì)讓AI系統(tǒng)能夠更好地處理復(fù)雜和新穎的界面情況,因?yàn)樗7铝巳祟?lèi)已經(jīng)進(jìn)化出的高效認(rèn)知策略。

二、技術(shù)創(chuàng)新:自動(dòng)化數(shù)據(jù)生成與過(guò)程導(dǎo)向獎(jiǎng)勵(lì)

將理論框架轉(zhuǎn)化為實(shí)際可用的AI系統(tǒng)需要解決一系列技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)在兩個(gè)關(guān)鍵技術(shù)方面實(shí)現(xiàn)了重要突破,這些創(chuàng)新使得BTL框架能夠真正落地并展現(xiàn)出卓越性能。

第一個(gè)重大技術(shù)創(chuàng)新是自動(dòng)化的眨眼數(shù)據(jù)生成流水線。在傳統(tǒng)的AI訓(xùn)練中,為了讓系統(tǒng)學(xué)會(huì)識(shí)別界面元素,需要大量人工標(biāo)注的數(shù)據(jù)。這就像教小孩認(rèn)識(shí)物品時(shí)需要一遍遍地指著蘋(píng)果說(shuō)"這是蘋(píng)果"一樣,費(fèi)時(shí)費(fèi)力且容易出錯(cuò)。而且,不同的標(biāo)注者可能對(duì)同一個(gè)界面元素有不同的理解,導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊。

BTL-UI的自動(dòng)化數(shù)據(jù)生成系統(tǒng)徹底改變了這種狀況。這個(gè)系統(tǒng)采用兩階段處理流程,就像一個(gè)經(jīng)驗(yàn)豐富的界面分析師在工作一樣。第一階段使用專(zhuān)門(mén)的解析模型對(duì)原始屏幕截圖進(jìn)行全面分析,提取出所有可見(jiàn)的UI元素,包括按鈕、圖標(biāo)、文本框、菜單等各種界面組件。每個(gè)元素都會(huì)被詳細(xì)標(biāo)注,包括其邊界框坐標(biāo)、元素類(lèi)型、語(yǔ)義描述以及是否可交互等屬性。這個(gè)過(guò)程就像給界面拍了一張X光片,讓系統(tǒng)能夠"看透"復(fù)雜界面的內(nèi)部結(jié)構(gòu)。

第二階段則更加智能,使用先進(jìn)的視覺(jué)語(yǔ)言模型來(lái)模擬人類(lèi)的注意力機(jī)制。系統(tǒng)會(huì)根據(jù)用戶指令和交互歷史,從第一階段提取的所有元素中篩選出最相關(guān)的感興趣區(qū)域。這個(gè)過(guò)程類(lèi)似于一個(gè)經(jīng)驗(yàn)豐富的用戶在瀏覽界面時(shí)的視覺(jué)掃描過(guò)程,會(huì)考慮元素的視覺(jué)顯著性、語(yǔ)義相關(guān)性以及任務(wù)匹配度等多個(gè)因素。

比如,當(dāng)用戶指令是"在Vimeo應(yīng)用中將視頻質(zhì)量調(diào)整為高清"時(shí),系統(tǒng)會(huì)自動(dòng)識(shí)別出設(shè)置圖標(biāo)、質(zhì)量選項(xiàng)菜單、播放控制欄等相關(guān)元素,而忽略那些與任務(wù)無(wú)關(guān)的裝飾性元素或廣告內(nèi)容。這種智能篩選能力讓系統(tǒng)能夠像人類(lèi)一樣快速聚焦到關(guān)鍵信息上,大大提高了處理效率。

更重要的是,這個(gè)數(shù)據(jù)生成流水線能夠自適應(yīng)地調(diào)整輸出結(jié)果。在某些情況下,當(dāng)前屏幕可能不包含與任務(wù)直接相關(guān)的元素,比如需要通過(guò)滾動(dòng)或返回操作才能找到目標(biāo)功能。在這種情況下,系統(tǒng)會(huì)智能地輸出空的感興趣區(qū)域集合,表示需要進(jìn)行導(dǎo)航操作。這種靈活性讓BTL框架能夠處理各種復(fù)雜的多步驟任務(wù)場(chǎng)景。

第二個(gè)重大技術(shù)創(chuàng)新是全新的BTL獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常采用結(jié)果導(dǎo)向的獎(jiǎng)勵(lì)策略,就像只看考試成績(jī)而不關(guān)心學(xué)習(xí)過(guò)程的老師一樣。這種方法雖然能夠在某些簡(jiǎn)單任務(wù)上取得不錯(cuò)效果,但在復(fù)雜的界面操作任務(wù)中卻存在明顯局限性。

BTL獎(jiǎng)勵(lì)機(jī)制采用了過(guò)程與結(jié)果相結(jié)合的綜合評(píng)估策略,包含三個(gè)相互協(xié)調(diào)的組件。第一個(gè)是雙重格式獎(jiǎng)勵(lì),確保系統(tǒng)輸出既符合預(yù)定義的結(jié)構(gòu)模板,又滿足內(nèi)容的格式要求。這就像檢查作文時(shí)既要看文章結(jié)構(gòu)是否完整,又要看語(yǔ)法和拼寫(xiě)是否正確一樣。系統(tǒng)會(huì)驗(yàn)證眨眼階段輸出的XML格式是否正確,思考階段的推理過(guò)程是否清晰,以及執(zhí)行階段的JSON指令是否符合規(guī)范。

第二個(gè)是眨眼獎(jiǎng)勵(lì),專(zhuān)門(mén)評(píng)估系統(tǒng)在視覺(jué)注意力分配方面的表現(xiàn)。這個(gè)組件會(huì)將系統(tǒng)預(yù)測(cè)的感興趣區(qū)域與自動(dòng)生成的標(biāo)準(zhǔn)答案進(jìn)行比較,使用基于交并比的匹配算法來(lái)計(jì)算相似度。有趣的是,這個(gè)獎(jiǎng)勵(lì)機(jī)制還考慮了界面元素的優(yōu)先級(jí),對(duì)于更重要的界面元素給予更高的獎(jiǎng)勵(lì)權(quán)重。比如,正確識(shí)別主要操作按鈕會(huì)比識(shí)別裝飾性圖標(biāo)獲得更多獎(jiǎng)勵(lì)。

第三個(gè)是執(zhí)行獎(jiǎng)勵(lì),評(píng)估最終生成的操作指令的準(zhǔn)確性。與傳統(tǒng)方法不同,BTL采用了嚴(yán)格的全匹配標(biāo)準(zhǔn),只有當(dāng)操作類(lèi)型和所有參數(shù)都完全正確時(shí)才給予獎(jiǎng)勵(lì)。這種"要么全對(duì),要么全錯(cuò)"的策略乍看嚴(yán)苛,但實(shí)際上更符合界面操作的實(shí)際需求。畢竟,點(diǎn)擊錯(cuò)誤位置或輸入錯(cuò)誤文本都會(huì)導(dǎo)致任務(wù)失敗,部分正確在這里沒(méi)有實(shí)際意義。

這種多層次的獎(jiǎng)勵(lì)設(shè)計(jì)帶來(lái)了顯著的訓(xùn)練效果提升。系統(tǒng)不僅學(xué)會(huì)了生成正確的最終輸出,更重要的是學(xué)會(huì)了正確的思維過(guò)程。通過(guò)對(duì)每個(gè)認(rèn)知階段的細(xì)致監(jiān)督,BTL-UI逐漸掌握了類(lèi)似人類(lèi)的界面理解和操作策略,在面對(duì)新穎界面時(shí)也能表現(xiàn)出良好的泛化能力。

三、模型架構(gòu):深度學(xué)習(xí)與認(rèn)知科學(xué)的完美結(jié)合

BTL-UI的成功不僅歸功于創(chuàng)新的框架設(shè)計(jì),更得益于其精巧的模型架構(gòu)和訓(xùn)練策略。研究團(tuán)隊(duì)基于強(qiáng)大的Qwen2.5-VL視覺(jué)語(yǔ)言模型構(gòu)建了完整的訓(xùn)練和優(yōu)化流程,將認(rèn)知科學(xué)理論與最新的深度學(xué)習(xí)技術(shù)完美融合。

整個(gè)系統(tǒng)的核心是一個(gè)精心設(shè)計(jì)的馬爾可夫決策過(guò)程框架。在這個(gè)框架中,AI代理需要在每個(gè)時(shí)間步驟接收當(dāng)前的屏幕狀態(tài)、用戶指令和歷史交互記錄,然后輸出結(jié)構(gòu)化的BTL響應(yīng)。這個(gè)過(guò)程可以形式化地表示為一個(gè)函數(shù)映射,將輸入的多模態(tài)信息轉(zhuǎn)換為包含視覺(jué)注意力區(qū)域、推理過(guò)程和執(zhí)行指令的綜合輸出。

模型的訓(xùn)練采用了先進(jìn)的群組相對(duì)位置優(yōu)化算法(GRPO)。這種方法的巧妙之處在于它不需要額外的獎(jiǎng)勵(lì)模型或價(jià)值函數(shù)網(wǎng)絡(luò),而是通過(guò)比較同一組候選輸出的相對(duì)質(zhì)量來(lái)進(jìn)行優(yōu)化。具體來(lái)說(shuō),系統(tǒng)會(huì)為每個(gè)訓(xùn)練樣本生成多個(gè)不同的候選響應(yīng),然后使用BTL獎(jiǎng)勵(lì)機(jī)制對(duì)這些候選進(jìn)行評(píng)分和排序。那些獲得較高獎(jiǎng)勵(lì)的響應(yīng)會(huì)被鼓勵(lì),而質(zhì)量較差的響應(yīng)則會(huì)被抑制。

這種相對(duì)比較的策略比傳統(tǒng)的絕對(duì)評(píng)分方法更加穩(wěn)定和高效。就像體育比賽中的相對(duì)排名比絕對(duì)分?jǐn)?shù)更能反映真實(shí)水平一樣,GRPO算法能夠更好地捕捉不同響應(yīng)之間的細(xì)微差別,避免了獎(jiǎng)勵(lì)分?jǐn)?shù)縮放等技術(shù)問(wèn)題。同時(shí),這種方法顯著降低了內(nèi)存需求,使得大規(guī)模模型的訓(xùn)練變得更加可行。

在具體的訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了精心設(shè)計(jì)的混合數(shù)據(jù)策略。訓(xùn)練數(shù)據(jù)包含了界面理解和多步規(guī)劃兩大類(lèi)任務(wù),涵蓋了從簡(jiǎn)單的元素定位到復(fù)雜的多應(yīng)用交互等各種場(chǎng)景。數(shù)據(jù)來(lái)源包括ShowUI-Desktop、AndroidControl、GUI-Odyssey等多個(gè)權(quán)威數(shù)據(jù)集,確保了模型能夠處理不同平臺(tái)和應(yīng)用類(lèi)型的界面操作任務(wù)。

為了充分發(fā)揮BTL框架的優(yōu)勢(shì),研究團(tuán)隊(duì)還開(kāi)發(fā)了專(zhuān)門(mén)的優(yōu)勢(shì)計(jì)算和參數(shù)更新機(jī)制。在每個(gè)訓(xùn)練批次中,系統(tǒng)會(huì)計(jì)算候選響應(yīng)的相對(duì)優(yōu)勢(shì)值,這個(gè)值反映了該響應(yīng)相對(duì)于平均水平的質(zhì)量差異。然后使用策略梯度方法更新模型參數(shù),鼓勵(lì)生成高質(zhì)量響應(yīng)的行為模式,同時(shí)通過(guò)KL散度約束防止模型偏離初始分布過(guò)遠(yuǎn)。

模型的推理過(guò)程也經(jīng)過(guò)了精心優(yōu)化。在接收到用戶指令和屏幕截圖后,系統(tǒng)首先激活眨眼模塊,快速掃描并識(shí)別相關(guān)的界面元素。這個(gè)過(guò)程使用了高效的視覺(jué)注意力機(jī)制,能夠在不到一秒的時(shí)間內(nèi)完成復(fù)雜界面的分析。然后思考模塊會(huì)整合視覺(jué)信息和任務(wù)需求,生成詳細(xì)的推理過(guò)程和操作策略。最后執(zhí)行模塊將抽象的操作意圖轉(zhuǎn)化為具體的可執(zhí)行指令。

整個(gè)推理流程不僅高效,而且具有很強(qiáng)的可解釋性。每個(gè)階段的輸出都有明確的語(yǔ)義含義,用戶和開(kāi)發(fā)者可以清楚地理解系統(tǒng)的決策過(guò)程。這種透明性對(duì)于構(gòu)建可信的AI系統(tǒng)至關(guān)重要,特別是在需要處理敏感或關(guān)鍵任務(wù)的應(yīng)用場(chǎng)景中。

四、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有最佳方法

為了驗(yàn)證BTL-UI的有效性,研究團(tuán)隊(duì)進(jìn)行了全面而嚴(yán)格的實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)涵蓋了界面理解、低級(jí)規(guī)劃和高級(jí)推理等多個(gè)維度,使用了多個(gè)權(quán)威基準(zhǔn)數(shù)據(jù)集,結(jié)果顯示BTL-UI在所有關(guān)鍵指標(biāo)上都取得了顯著的性能提升。

在界面元素定位能力的測(cè)試中,BTL-UI展現(xiàn)出了卓越的表現(xiàn)。在原始ScreenSpot數(shù)據(jù)集上,BTL-UI-7B模型達(dá)到了87.2%的平均準(zhǔn)確率,明顯超過(guò)了基礎(chǔ)模型Qwen2.5-VL的84.8%和監(jiān)督微調(diào)模型Aria-UI的82.4%。更令人印象深刻的是,在修正版的ScreenSpot-V2數(shù)據(jù)集上,BTL-UI的性能進(jìn)一步提升到89.1%,建立了新的業(yè)界標(biāo)準(zhǔn)。

這些數(shù)字背后反映的是BTL框架在模擬人類(lèi)視覺(jué)注意力機(jī)制方面的成功。通過(guò)眨眼階段的區(qū)域提取和注意力引導(dǎo),系統(tǒng)能夠像人類(lèi)一樣快速聚焦到與任務(wù)相關(guān)的界面元素上,即使在復(fù)雜多變的視覺(jué)布局中也能保持穩(wěn)定的性能。特別值得注意的是,即使是參數(shù)量較小的3B版本也能達(dá)到極具競(jìng)爭(zhēng)力的結(jié)果,這表明BTL框架具有很高的樣本效率和泛化能力。

在需要精確步驟控制的低級(jí)規(guī)劃任務(wù)中,BTL-UI同樣表現(xiàn)出色。在AndroidControl低級(jí)任務(wù)測(cè)試中,BTL-UI-3B的步驟成功率達(dá)到了84.8%,大幅超越了GUI-R1-3B的64.4%和最佳監(jiān)督學(xué)習(xí)模型SeeClick的75.0%。這種提升反映了BTL框架在處理精細(xì)界面交互方面的優(yōu)勢(shì),系統(tǒng)能夠更好地理解界面狀態(tài)變化,減少了常見(jiàn)的錯(cuò)誤點(diǎn)擊和任務(wù)提前終止問(wèn)題。

BTL-UI-7B在AndroidControl低級(jí)任務(wù)中的表現(xiàn)更加驚艷,在所有評(píng)估指標(biāo)上都達(dá)到了最佳水平。操作類(lèi)型預(yù)測(cè)準(zhǔn)確率達(dá)到96.8%,界面元素定位準(zhǔn)確率達(dá)到88.5%,步驟成功率高達(dá)88.0%。這些結(jié)果證明了BTL框架不僅能夠正確理解用戶意圖,還能夠精確執(zhí)行復(fù)雜的多步驟操作序列。

在最具挑戰(zhàn)性的高級(jí)規(guī)劃任務(wù)中,BTL-UI展現(xiàn)出了卓越的長(zhǎng)期推理能力。在AndroidControl高級(jí)任務(wù)和GUI-Odyssey測(cè)試中,BTL-UI-7B分別達(dá)到了69.2%和45.2%的步驟成功率,顯著超越了GUI-R1-7B的51.7%和35.2%。這些任務(wù)要求系統(tǒng)不僅要理解復(fù)雜的自然語(yǔ)言指令,還要在多個(gè)應(yīng)用和界面之間進(jìn)行導(dǎo)航,執(zhí)行涉及多個(gè)子目標(biāo)的復(fù)雜任務(wù)序列。

高級(jí)規(guī)劃任務(wù)的成功充分體現(xiàn)了BTL框架三階段設(shè)計(jì)的威力。眨眼階段的注意力引導(dǎo)幫助系統(tǒng)在每個(gè)決策點(diǎn)都能準(zhǔn)確定位相關(guān)元素,有效過(guò)濾了視覺(jué)干擾信息。思考階段的結(jié)構(gòu)化推理提供了清晰的邏輯腳手架,支持復(fù)雜的抽象目標(biāo)分解。執(zhí)行階段的精確控制確保了每個(gè)操作步驟的準(zhǔn)確執(zhí)行,避免了累積錯(cuò)誤的產(chǎn)生。

為了深入理解各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。結(jié)果顯示,從純監(jiān)督學(xué)習(xí)切換到強(qiáng)化微調(diào)能夠帶來(lái)顯著的性能提升,步驟成功率從60.6%提升到65.6%。加入自動(dòng)生成的眨眼數(shù)據(jù)后,性能進(jìn)一步提升到68.1%。而完整的BTL獎(jiǎng)勵(lì)機(jī)制則將最終性能推高到69.2%,證明了每個(gè)組件都發(fā)揮了重要作用。

特別有趣的是對(duì)眨眼階段感興趣區(qū)域數(shù)量的分析。實(shí)驗(yàn)發(fā)現(xiàn),隨著區(qū)域數(shù)量從1個(gè)增加到5個(gè),系統(tǒng)性能穩(wěn)步提升,但在超過(guò)5個(gè)后開(kāi)始趨于飽和。這個(gè)發(fā)現(xiàn)與人類(lèi)視覺(jué)注意力的認(rèn)知研究結(jié)果高度吻合,表明BTL框架確實(shí)成功地模擬了人類(lèi)的認(rèn)知機(jī)制。

五、技術(shù)細(xì)節(jié):從理論到實(shí)踐的完整實(shí)現(xiàn)

BTL-UI的成功實(shí)現(xiàn)涉及大量精巧的技術(shù)細(xì)節(jié)設(shè)計(jì),這些看似微小的創(chuàng)新累積起來(lái)構(gòu)成了整個(gè)系統(tǒng)的強(qiáng)大性能。研究團(tuán)隊(duì)在系統(tǒng)提示設(shè)計(jì)、數(shù)據(jù)處理流程、訓(xùn)練策略優(yōu)化等多個(gè)方面都做出了重要貢獻(xiàn)。

系統(tǒng)提示的設(shè)計(jì)是一個(gè)關(guān)鍵的技術(shù)環(huán)節(jié)。BTL-UI使用了精心設(shè)計(jì)的提示模板來(lái)引導(dǎo)模型生成符合三階段框架的結(jié)構(gòu)化輸出。這個(gè)提示不僅定義了輸出格式,還明確了每個(gè)階段的職責(zé)和期望。比如,系統(tǒng)會(huì)明確告訴模型需要提取0到5個(gè)最相關(guān)的界面元素,并且可以在沒(méi)有相關(guān)元素時(shí)輸出空集。這種靈活性讓系統(tǒng)能夠處理各種復(fù)雜的界面情況,包括需要滾動(dòng)或?qū)Ш降膱?chǎng)景。

在動(dòng)作空間的設(shè)計(jì)上,研究團(tuán)隊(duì)統(tǒng)一了不同數(shù)據(jù)集的動(dòng)作定義,解決了多任務(wù)學(xué)習(xí)中常見(jiàn)的動(dòng)作空間沖突問(wèn)題。系統(tǒng)支持六種基本操作類(lèi)型:返回、主頁(yè)、點(diǎn)擊、輸入、滑動(dòng)和長(zhǎng)按。每種操作都有明確的格式定義和使用場(chǎng)景,確保了模型輸出的一致性和可執(zhí)行性。

數(shù)據(jù)處理流程也經(jīng)過(guò)了精心優(yōu)化。研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單地混合不同來(lái)源的數(shù)據(jù)往往會(huì)導(dǎo)致性能下降,因?yàn)椴煌瑪?shù)據(jù)集可能有不同的標(biāo)注風(fēng)格和質(zhì)量標(biāo)準(zhǔn)。為了解決這個(gè)問(wèn)題,他們開(kāi)發(fā)了智能的數(shù)據(jù)融合策略,根據(jù)每個(gè)數(shù)據(jù)集的特點(diǎn)調(diào)整采樣權(quán)重和處理方式。

在眨眼數(shù)據(jù)的生成過(guò)程中,系統(tǒng)采用了兩階段的質(zhì)量控制機(jī)制。第一階段的解析器會(huì)提取所有可見(jiàn)的界面元素,包括詳細(xì)的屬性信息。第二階段的過(guò)濾器則使用先進(jìn)的視覺(jué)語(yǔ)言模型來(lái)評(píng)估每個(gè)元素與任務(wù)的相關(guān)性,只保留最有用的信息。這種分層處理方式既保證了數(shù)據(jù)的完整性,又避免了信息過(guò)載。

訓(xùn)練過(guò)程中的超參數(shù)調(diào)優(yōu)也值得關(guān)注。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)確定了最優(yōu)的學(xué)習(xí)率、批次大小、KL散度權(quán)重等關(guān)鍵參數(shù)。特別是KL散度約束的設(shè)計(jì),既要保證模型能夠?qū)W習(xí)到新的行為模式,又要避免偏離初始分布過(guò)遠(yuǎn)導(dǎo)致的訓(xùn)練不穩(wěn)定問(wèn)題。

模型的推理優(yōu)化同樣重要。BTL-UI采用了高效的注意力機(jī)制和計(jì)算圖優(yōu)化技術(shù),確保在保持高精度的同時(shí)實(shí)現(xiàn)快速響應(yīng)。系統(tǒng)的推理時(shí)間通常在幾秒以內(nèi),滿足了實(shí)際應(yīng)用的實(shí)時(shí)性要求。

在模型的可解釋性方面,BTL框架提供了多層次的透明度。用戶不僅可以看到最終的操作指令,還可以了解系統(tǒng)關(guān)注了哪些界面元素,進(jìn)行了什么樣的推理過(guò)程。這種可解釋性對(duì)于調(diào)試和優(yōu)化系統(tǒng)行為極其重要,也增強(qiáng)了用戶對(duì)AI系統(tǒng)的信任度。

為了確保實(shí)驗(yàn)結(jié)果的可重現(xiàn)性,研究團(tuán)隊(duì)在所有關(guān)鍵環(huán)節(jié)都設(shè)置了固定的隨機(jī)種子,并詳細(xì)記錄了訓(xùn)練過(guò)程中的各種參數(shù)設(shè)置。他們還開(kāi)源了完整的代碼和數(shù)據(jù)處理流水線,讓其他研究者能夠驗(yàn)證和擴(kuò)展這項(xiàng)工作。

六、應(yīng)用前景:重新定義人機(jī)交互的未來(lái)

BTL-UI的成功不僅僅是學(xué)術(shù)研究的突破,更預(yù)示著人機(jī)交互領(lǐng)域即將迎來(lái)的革命性變化。這項(xiàng)技術(shù)的應(yīng)用前景極為廣闊,從個(gè)人數(shù)字助手到企業(yè)自動(dòng)化解決方案,都將因?yàn)檫@種更加自然和智能的界面操作能力而受益匪淺。

在個(gè)人用戶層面,BTL-UI技術(shù)將使智能助手真正變得"智能"起來(lái)。目前的語(yǔ)音助手雖然能夠理解語(yǔ)音指令,但在執(zhí)行復(fù)雜的應(yīng)用操作時(shí)往往力不從心。而集成了BTL技術(shù)的智能助手將能夠像人類(lèi)助理一樣,熟練地操作各種應(yīng)用程序完成復(fù)雜任務(wù)。用戶只需要說(shuō)出自然語(yǔ)言指令,比如"幫我在購(gòu)物應(yīng)用中找到評(píng)分最高的無(wú)線耳機(jī),價(jià)格在500元以下,然后加入購(gòu)物車(chē)",助手就能夠自動(dòng)完成整個(gè)購(gòu)買(mǎi)流程的前期準(zhǔn)備工作。

對(duì)于有特殊需求的用戶群體,BTL技術(shù)的價(jià)值更加突出。視覺(jué)障礙用戶可以通過(guò)語(yǔ)音指令讓AI代理幫助他們操作復(fù)雜的圖形界面,而行動(dòng)不便的用戶則可以用最小的操作成本完成原本需要大量手動(dòng)操作的任務(wù)。這種技術(shù)的普及將顯著提高數(shù)字設(shè)備的可訪問(wèn)性,讓更多人能夠享受到現(xiàn)代科技的便利。

在企業(yè)應(yīng)用場(chǎng)景中,BTL技術(shù)將催生新一代的流程自動(dòng)化解決方案。傳統(tǒng)的機(jī)器人流程自動(dòng)化(RPA)工具通常依賴(lài)于脆弱的界面元素定位機(jī)制,一旦應(yīng)用界面發(fā)生變化就容易失效。而基于BTL框架的自動(dòng)化系統(tǒng)具有類(lèi)似人類(lèi)的適應(yīng)能力,能夠理解界面的語(yǔ)義結(jié)構(gòu)而不僅僅是依賴(lài)固定的坐標(biāo)位置。這意味著企業(yè)可以部署更加穩(wěn)定和靈活的自動(dòng)化流程,大大降低維護(hù)成本。

客戶服務(wù)領(lǐng)域也將迎來(lái)重大變革。配備BTL技術(shù)的虛擬客服代理將能夠直接在客戶的設(shè)備上演示操作步驟,而不僅僅是提供文字或語(yǔ)音指導(dǎo)。當(dāng)客戶遇到應(yīng)用使用問(wèn)題時(shí),AI代理可以接管屏幕操作,實(shí)時(shí)展示正確的操作方法,或者直接幫助客戶完成復(fù)雜的設(shè)置配置任務(wù)。

在軟件測(cè)試和質(zhì)量保證領(lǐng)域,BTL技術(shù)將大大提高自動(dòng)化測(cè)試的覆蓋率和有效性。傳統(tǒng)的UI自動(dòng)化測(cè)試通常需要編寫(xiě)大量的測(cè)試腳本,而且容易因?yàn)榻缑孀兓А;贐TL的測(cè)試系統(tǒng)可以使用自然語(yǔ)言描述測(cè)試場(chǎng)景,然后自動(dòng)執(zhí)行相應(yīng)的操作序列,就像人類(lèi)測(cè)試員一樣靈活地探索應(yīng)用功能。

教育培訓(xùn)領(lǐng)域同樣充滿機(jī)遇。BTL技術(shù)可以用于開(kāi)發(fā)智能的軟件操作導(dǎo)師,為用戶提供個(gè)性化的應(yīng)用使用培訓(xùn)。這種AI導(dǎo)師不僅能夠演示正確的操作方法,還能夠根據(jù)用戶的學(xué)習(xí)進(jìn)度和錯(cuò)誤模式調(diào)整教學(xué)策略,提供更加有效的學(xué)習(xí)體驗(yàn)。

在研究和開(kāi)發(fā)層面,BTL框架為GUI代理技術(shù)的進(jìn)一步發(fā)展提供了堅(jiān)實(shí)的理論基礎(chǔ)和技術(shù)路徑。研究團(tuán)隊(duì)已經(jīng)證明了認(rèn)知科學(xué)啟發(fā)的方法在這個(gè)領(lǐng)域的巨大潛力,未來(lái)可以期待更多基于人類(lèi)認(rèn)知機(jī)制的AI系統(tǒng)設(shè)計(jì)。比如,可以進(jìn)一步研究人類(lèi)的錯(cuò)誤恢復(fù)機(jī)制,讓AI系統(tǒng)在操作失敗時(shí)能夠像人類(lèi)一樣快速調(diào)整策略。

另一個(gè)有趣的發(fā)展方向是多用戶協(xié)作場(chǎng)景的支持。人類(lèi)在協(xié)作使用應(yīng)用時(shí)會(huì)進(jìn)行復(fù)雜的協(xié)調(diào)和溝通,如果能夠?qū)⑦@種協(xié)作機(jī)制融入AI系統(tǒng),將開(kāi)創(chuàng)全新的人機(jī)協(xié)作模式。用戶和AI代理可以像團(tuán)隊(duì)伙伴一樣共同完成復(fù)雜的多步驟任務(wù),充分發(fā)揮各自的優(yōu)勢(shì)。

當(dāng)然,BTL技術(shù)的廣泛應(yīng)用也需要考慮安全性和隱私保護(hù)等重要問(wèn)題。由于AI代理需要訪問(wèn)和操作各種應(yīng)用程序,必須建立完善的權(quán)限管理和操作審計(jì)機(jī)制,確保用戶數(shù)據(jù)的安全和隱私。研究團(tuán)隊(duì)已經(jīng)意識(shí)到這些挑戰(zhàn),并在系統(tǒng)設(shè)計(jì)中預(yù)留了相應(yīng)的安全接口和監(jiān)控機(jī)制。

總的來(lái)說(shuō),BTL-UI技術(shù)代表了人機(jī)交互領(lǐng)域的一個(gè)重要里程碑。它不僅解決了當(dāng)前AI界面代理的技術(shù)瓶頸,更為構(gòu)建真正智能和自然的數(shù)字助手指明了方向。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由相信,未來(lái)的人機(jī)交互將變得更加直觀、高效和人性化。

BTL框架的成功證明了跨學(xué)科研究的巨大價(jià)值。通過(guò)將認(rèn)知科學(xué)的深刻洞察與最新的人工智能技術(shù)相結(jié)合,研究團(tuán)隊(duì)創(chuàng)造出了超越傳統(tǒng)方法的創(chuàng)新解決方案。這種研究范式不僅適用于GUI代理領(lǐng)域,也為其他需要模擬人類(lèi)認(rèn)知能力的AI應(yīng)用提供了重要啟示。我們可以期待,在不久的將來(lái),會(huì)有更多基于人類(lèi)認(rèn)知機(jī)制的AI系統(tǒng)問(wèn)世,為人類(lèi)社會(huì)帶來(lái)更大的價(jià)值和便利。

Q&A

Q1:BTL-UI的"眨眼-思考-執(zhí)行"三階段是如何工作的?

A:BTL-UI將人類(lèi)操作界面的過(guò)程分解為三個(gè)步驟。"眨眼"階段像人眼快速掃視一樣,迅速定位屏幕上與任務(wù)相關(guān)的區(qū)域;"思考"階段進(jìn)行邏輯推理和決策規(guī)劃,類(lèi)似人腦的認(rèn)知過(guò)程;"執(zhí)行"階段生成精確的操作指令,如點(diǎn)擊坐標(biāo)或輸入文本。這種仿生設(shè)計(jì)讓AI更接近人類(lèi)的自然操作方式。

Q2:BTL-UI比傳統(tǒng)GUI自動(dòng)化工具有什么優(yōu)勢(shì)?

A:傳統(tǒng)工具通常依賴(lài)固定的界面元素位置,界面一變化就容易失效。BTL-UI具有類(lèi)似人類(lèi)的理解和適應(yīng)能力,能夠理解界面的語(yǔ)義結(jié)構(gòu)而不僅僅依賴(lài)坐標(biāo)位置。實(shí)驗(yàn)顯示,BTL-UI在復(fù)雜任務(wù)中的成功率達(dá)到69.2%,遠(yuǎn)超其他方法的51.7%,而且具有更強(qiáng)的泛化能力和錯(cuò)誤恢復(fù)能力。

Q3:BTL-UI技術(shù)什么時(shí)候能夠普及到日常應(yīng)用中?

A:目前BTL-UI還處于研究階段,小米團(tuán)隊(duì)已經(jīng)開(kāi)源了相關(guān)代碼供研究使用。要實(shí)現(xiàn)商業(yè)化普及,還需要解決安全性、隱私保護(hù)、計(jì)算資源優(yōu)化等工程化問(wèn)題。預(yù)計(jì)在未來(lái)2-3年內(nèi),我們可能會(huì)看到基于類(lèi)似技術(shù)的智能助手產(chǎn)品,但大規(guī)模普及可能還需要更長(zhǎng)時(shí)間。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-