av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 GUI智能體重獲新生:北京理工大學(xué)團(tuán)隊(duì)讓AI在電腦上的操作效率狂飆5倍

GUI智能體重獲新生:北京理工大學(xué)團(tuán)隊(duì)讓AI在電腦上的操作效率狂飆5倍

2025-10-22 10:11
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-22 10:11 ? 科技行者

這項(xiàng)由北京理工大學(xué)、通用人工智能研究院等多家機(jī)構(gòu)聯(lián)合完成的突破性研究發(fā)表于2025年1月,論文編號為arXiv:2509.23866v1。研究團(tuán)隊(duì)的主要成員包括李鵬翔、胡澤晨、商子瑞等來自北京理工大學(xué)和通用人工智能研究院的研究人員,以及來自DataCanvas、北京郵電大學(xué)等機(jī)構(gòu)的合作者。有興趣深入了解的讀者可以通過該論文編號查詢完整研究內(nèi)容。

當(dāng)我們談?wù)揂I時(shí),大多數(shù)人會(huì)想到聊天機(jī)器人或者圖像生成工具。然而,真正讓AI變得實(shí)用的關(guān)鍵在于讓它能夠像人類一樣操作電腦——點(diǎn)擊按鈕、填寫表格、瀏覽網(wǎng)頁、使用各種軟件。這就是GUI(圖形用戶界面)智能體要解決的核心問題。你可以把GUI智能體理解為一個(gè)能夠"看懂"電腦屏幕并進(jìn)行操作的數(shù)字助手,它能夠替你完成那些重復(fù)繁瑣的電腦工作。

但是,教會(huì)AI操作電腦并不像教會(huì)它聊天那么簡單。電腦操作往往需要很多步驟,而且每一步都要準(zhǔn)確無誤。就像學(xué)習(xí)開車一樣,你不能只告訴AI"把車開到目的地",而是要教會(huì)它每一個(gè)具體的操作:什么時(shí)候踩剎車、如何轉(zhuǎn)彎、怎樣判斷路況。更困難的是,AI需要通過大量的練習(xí)來掌握這些技能,但傳統(tǒng)的訓(xùn)練方法效率極低,就像讓一個(gè)學(xué)生在極其緩慢的模擬駕駛器上練車,大部分時(shí)間都在等待而不是真正學(xué)習(xí)。

研究團(tuán)隊(duì)發(fā)現(xiàn)了傳統(tǒng)訓(xùn)練方法的兩個(gè)致命弱點(diǎn)。第一個(gè)問題就像是一個(gè)效率極低的工廠流水線:AI需要先觀察屏幕、然后思考、接著執(zhí)行動(dòng)作、等待結(jié)果、再進(jìn)行下一步。每個(gè)環(huán)節(jié)都要等待前一個(gè)環(huán)節(jié)完全結(jié)束,導(dǎo)致大量的空閑時(shí)間。想象一下,如果一個(gè)廚師在等水燒開的時(shí)候什么都不做,在等菜炒好的時(shí)候也閑著,那這頓飯要做到什么時(shí)候?第二個(gè)問題則是訓(xùn)練數(shù)據(jù)的質(zhì)量參差不齊。簡單的任務(wù)會(huì)產(chǎn)生大量成功的訓(xùn)練樣本,而困難的任務(wù)往往全部失敗,就像一個(gè)學(xué)生只練習(xí)簡單的加減法,從來不碰微積分,這樣怎么能真正掌握數(shù)學(xué)呢?

為了解決這些問題,研究團(tuán)隊(duì)提出了DART(去耦合智能體強(qiáng)化學(xué)習(xí)訓(xùn)練)框架。這個(gè)名字聽起來很技術(shù)化,但本質(zhì)上就是把原本緊密耦合的訓(xùn)練過程拆解成四個(gè)獨(dú)立運(yùn)行的模塊,讓它們能夠同時(shí)工作而不用互相等待。這就像把原來的單線程工廠改造成了現(xiàn)代化的多條流水線并行作業(yè)的智能工廠。

一、化整為零:讓AI訓(xùn)練像現(xiàn)代工廠一樣高效運(yùn)轉(zhuǎn)

傳統(tǒng)的AI訓(xùn)練就像一個(gè)老式的手工作坊,所有工作都按照嚴(yán)格的順序進(jìn)行:先收集數(shù)據(jù),再處理數(shù)據(jù),然后訓(xùn)練模型,最后更新系統(tǒng)。每個(gè)步驟都要等待前一個(gè)步驟完全結(jié)束,導(dǎo)致大量的資源閑置和時(shí)間浪費(fèi)。DART框架則像是將這個(gè)手工作坊改造成了現(xiàn)代化的智能工廠。

在這個(gè)智能工廠里,有四個(gè)專門的車間同時(shí)運(yùn)轉(zhuǎn)。環(huán)境集群車間負(fù)責(zé)運(yùn)行大量的虛擬電腦環(huán)境,就像是一個(gè)巨大的計(jì)算機(jī)房,里面有180臺虛擬的Ubuntu電腦同時(shí)運(yùn)行各種任務(wù)。推理服務(wù)車間則像是一個(gè)AI大腦中心,配備了多臺強(qiáng)大的GPU,專門負(fù)責(zé)讓AI觀察屏幕并做出決策。數(shù)據(jù)管理車間就像是一個(gè)智能倉庫,負(fù)責(zé)收集、整理和分發(fā)訓(xùn)練數(shù)據(jù)。訓(xùn)練車間則是核心的學(xué)習(xí)中心,專門負(fù)責(zé)根據(jù)收集到的經(jīng)驗(yàn)來改進(jìn)AI的能力。

這種設(shè)計(jì)的巧妙之處在于,四個(gè)車間可以完全獨(dú)立地運(yùn)行。當(dāng)環(huán)境車間在執(zhí)行任務(wù)時(shí),訓(xùn)練車間可以同時(shí)處理之前收集的數(shù)據(jù)來改進(jìn)模型。當(dāng)推理服務(wù)車間在為一個(gè)任務(wù)提供決策時(shí),其他空閑的GPU可以立即為別的任務(wù)服務(wù)。數(shù)據(jù)管理車間則像一個(gè)永不停歇的調(diào)度中心,不斷地協(xié)調(diào)各個(gè)車間的工作。

為了進(jìn)一步提高效率,研究團(tuán)隊(duì)還設(shè)計(jì)了一種叫做"軌跡級采樣"的方法。傳統(tǒng)方法就像是要求所有學(xué)生必須同時(shí)完成考試才能批改試卷,而新方法則允許每個(gè)學(xué)生完成后立即提交,立即得到反饋。這樣,快速完成簡單任務(wù)的AI可以立即開始新的學(xué)習(xí),而不用等待那些還在處理復(fù)雜任務(wù)的同伴。

此外,他們還實(shí)現(xiàn)了"按工作者更新模型"的機(jī)制。傳統(tǒng)方法就像是要求整個(gè)班級的學(xué)生都停課,等老師把新的知識教給每一個(gè)人之后才能繼續(xù)學(xué)習(xí)。新方法則像是老師可以單獨(dú)給某些學(xué)生傳授新知識,其他學(xué)生繼續(xù)用現(xiàn)有知識學(xué)習(xí),這樣整個(gè)學(xué)習(xí)過程永遠(yuǎn)不會(huì)停止。

這些改進(jìn)帶來了顯著的效果提升。GPU利用率提高了1.6倍,訓(xùn)練吞吐量提高了1.9倍,環(huán)境利用率更是提高了5.5倍。這意味著同樣的計(jì)算資源可以產(chǎn)生遠(yuǎn)超以前的訓(xùn)練效果,就像是將一個(gè)低效的手工作坊改造成了高效的現(xiàn)代化工廠。

二、因材施教:讓AI學(xué)習(xí)像個(gè)性化教育一樣精準(zhǔn)高效

僅僅提高訓(xùn)練效率還不夠,研究團(tuán)隊(duì)深知,如何讓AI更聰明地學(xué)習(xí)才是關(guān)鍵。他們設(shè)計(jì)了一套多層次的自適應(yīng)數(shù)據(jù)管理策略,就像是為AI量身定制了一套個(gè)性化的學(xué)習(xí)計(jì)劃。

在任務(wù)層面,他們采用了動(dòng)態(tài)調(diào)整策略。就像一個(gè)智能的家教老師,這套系統(tǒng)會(huì)實(shí)時(shí)監(jiān)控AI在每個(gè)任務(wù)上的表現(xiàn)。如果AI已經(jīng)能夠熟練完成某個(gè)任務(wù)(成功率超過60%),系統(tǒng)就會(huì)減少這個(gè)任務(wù)的練習(xí)次數(shù),將更多時(shí)間分配給那些還沒有掌握的困難任務(wù)。這就像是一個(gè)學(xué)生已經(jīng)熟練掌握了加法運(yùn)算,老師就不會(huì)再讓他反復(fù)練習(xí)加法,而是引導(dǎo)他學(xué)習(xí)更復(fù)雜的乘法和除法。

在軌跡層面,系統(tǒng)會(huì)為每個(gè)任務(wù)設(shè)定個(gè)性化的最大步驟限制。傳統(tǒng)方法就像是給所有學(xué)生規(guī)定相同的考試時(shí)間,不管題目難易。新方法則會(huì)根據(jù)任務(wù)的復(fù)雜程度來調(diào)整"考試時(shí)間"。簡單的點(diǎn)擊任務(wù)可能只需要10步就能完成,而復(fù)雜的多應(yīng)用協(xié)作任務(wù)可能需要50步。這樣既避免了在簡單任務(wù)上浪費(fèi)時(shí)間,也確保了復(fù)雜任務(wù)有足夠的探索空間。

最有趣的是經(jīng)驗(yàn)軌跡池的設(shè)計(jì)。研究團(tuán)隊(duì)意識到,有些任務(wù)太困難了,以至于AI在正常練習(xí)中根本無法成功完成。這就像是一個(gè)剛學(xué)游泳的人被直接扔到深水區(qū),肯定會(huì)淹死。為了解決這個(gè)問題,他們建立了一個(gè)"成功經(jīng)驗(yàn)庫",提前收集了一些困難任務(wù)的成功案例。當(dāng)AI在某個(gè)困難任務(wù)上屢戰(zhàn)屢敗時(shí),系統(tǒng)會(huì)從經(jīng)驗(yàn)庫中取出一個(gè)成功案例,讓AI學(xué)習(xí)"原來是這樣做的"。這就像是給學(xué)生提供了標(biāo)準(zhǔn)答案作為參考,幫助他們理解正確的解題思路。

在更細(xì)粒度的步驟層面,研究團(tuán)隊(duì)還采用了"高熵驅(qū)動(dòng)的步驟選擇"策略。這個(gè)名字聽起來很技術(shù)化,但理解起來很簡單。在AI完成一個(gè)復(fù)雜任務(wù)的過程中,有些步驟是顯而易見的(比如看到登錄框就輸入用戶名),有些步驟則需要仔細(xì)思考和判斷(比如在復(fù)雜界面中找到正確的設(shè)置選項(xiàng))。高熵步驟就是那些需要AI動(dòng)腦筋的關(guān)鍵決策點(diǎn)。系統(tǒng)會(huì)重點(diǎn)關(guān)注這些關(guān)鍵步驟的學(xué)習(xí),就像老師會(huì)重點(diǎn)講解難點(diǎn)而快速帶過簡單內(nèi)容一樣。

最后,在最基礎(chǔ)的詞匯層面,研究團(tuán)隊(duì)還解決了一個(gè)技術(shù)細(xì)節(jié)問題。由于推理服務(wù)和訓(xùn)練系統(tǒng)使用了不同的優(yōu)化策略,會(huì)導(dǎo)致AI在執(zhí)行和學(xué)習(xí)時(shí)的"說話方式"略有不同。這就像是一個(gè)學(xué)生在考試時(shí)的答題風(fēng)格和平時(shí)練習(xí)時(shí)略有差異,如果不加以矯正,會(huì)影響學(xué)習(xí)效果。他們采用了"截?cái)嘀匾圆蓸?的技術(shù)來解決這個(gè)問題,確保學(xué)習(xí)過程的穩(wěn)定性。

三、實(shí)戰(zhàn)驗(yàn)證:AI助手在復(fù)雜任務(wù)中的驚艷表現(xiàn)

為了驗(yàn)證這套訓(xùn)練系統(tǒng)的效果,研究團(tuán)隊(duì)選擇了OSWorld基準(zhǔn)測試作為實(shí)戰(zhàn)演練場。OSWorld就像是AI界的"高考",它包含了各種復(fù)雜的電腦操作任務(wù),從簡單的文件管理到復(fù)雜的軟件配置,涵蓋了Chrome瀏覽器、GIMP圖像處理、LibreOffice辦公套件、Thunderbird郵件客戶端等10個(gè)不同的應(yīng)用程序。

他們基于開源的UI-TARS-1.5-7B模型進(jìn)行訓(xùn)練,最終得到了DART-GUI-7B模型。這個(gè)新模型的表現(xiàn)令人印象深刻:在OSWorld測試中達(dá)到了42.13%的任務(wù)成功率,比基礎(chǔ)模型提高了14.61個(gè)百分點(diǎn),比之前最好的開源模型高出7.34個(gè)百分點(diǎn)。更令人驚喜的是,這個(gè)性能是在僅允許30步操作的限制下達(dá)到的,而對比的其他模型都使用了100步的操作限制。

讓我們通過幾個(gè)具體的案例來看看這個(gè)AI助手到底有多聰明。在一個(gè)VS Code代碼編輯器的配置任務(wù)中,原始模型錯(cuò)誤地嘗試修改"HTML格式換行長度"的設(shè)置,而DART-GUI-7B則準(zhǔn)確地找到了"編輯器換行列數(shù)"這個(gè)正確的選項(xiàng)。這就像是一個(gè)學(xué)生不僅能找到正確的教室,還能準(zhǔn)確地坐到自己的座位上。

在一個(gè)LibreOffice文檔編輯任務(wù)中,需要將"H2O"中的"2"設(shè)置為下標(biāo)格式。原始模型犯了一個(gè)典型的錯(cuò)誤:它選中了整個(gè)"H2O"文本,而DART-GUI-7B則精確地只選中了需要設(shè)置為下標(biāo)的"2"。這種精確度的提升展現(xiàn)了AI在理解任務(wù)要求方面的顯著進(jìn)步。

更有挑戰(zhàn)性的是一些極其困難的任務(wù)。比如在LibreOffice Impress演示軟件中配置雙屏顯示設(shè)置,這個(gè)任務(wù)復(fù)雜到幾乎所有嘗試都會(huì)失敗。但是通過經(jīng)驗(yàn)軌跡池中預(yù)先收集的成功案例,DART-GUI-7B學(xué)會(huì)了正確的解決路徑:點(diǎn)擊"工具"菜單而不是"幻燈片放映"菜單,然后進(jìn)入偏好設(shè)置進(jìn)行配置。這就像是一個(gè)學(xué)生通過學(xué)習(xí)學(xué)長的成功經(jīng)驗(yàn),掌握了解決難題的正確方法。

在另一個(gè)Chrome瀏覽器的書簽保存任務(wù)中,原始模型在即將成功時(shí)犯了一個(gè)致命錯(cuò)誤:它在不改變書簽文件夾設(shè)置的情況下直接點(diǎn)擊了"完成"按鈕,導(dǎo)致書簽被保存到了錯(cuò)誤的位置。而DART-GUI-7B則細(xì)心地將書簽文件夾從默認(rèn)的"所有書簽"切換到了"書簽欄",然后才點(diǎn)擊完成。這種對細(xì)節(jié)的把握體現(xiàn)了AI在理解任務(wù)完整流程方面的成熟度。

效率提升方面的數(shù)據(jù)同樣令人振奮。與傳統(tǒng)的耦合訓(xùn)練方法相比,DART框架在訓(xùn)練吞吐量上提升了1.9倍,環(huán)境利用率提升了5.5倍,GPU利用率提升了1.6倍。這意味著研究團(tuán)隊(duì)不僅讓AI變得更聰明,還讓訓(xùn)練過程變得更加高效。

四、深入剖析:讓AI更聰明的關(guān)鍵技術(shù)細(xì)節(jié)

為了更好地理解這項(xiàng)研究的技術(shù)創(chuàng)新,我們需要深入了解幾個(gè)關(guān)鍵的設(shè)計(jì)細(xì)節(jié)。整個(gè)DART框架的核心思想可以用一個(gè)餐廳的比喻來理解:傳統(tǒng)的AI訓(xùn)練就像是一個(gè)小餐館,廚師必須按順序完成每一道菜,顧客必須等到前面的顧客全部用餐完畢才能開始點(diǎn)菜。而DART框架則像是一個(gè)現(xiàn)代化的大型餐廳,有多個(gè)廚師同時(shí)工作,服務(wù)員可以隨時(shí)接受新訂單,收銀員不斷處理賬單,整個(gè)流程高效有序。

在技術(shù)實(shí)現(xiàn)層面,環(huán)境集群使用了Kubernetes容器編排技術(shù)來管理180個(gè)并行的Ubuntu Docker容器。每個(gè)容器就像是一個(gè)獨(dú)立的虛擬電腦,可以運(yùn)行各種桌面應(yīng)用程序。這些容器分布在不同的物理服務(wù)器上,通過網(wǎng)絡(luò)連接形成一個(gè)龐大的虛擬計(jì)算集群。推理服務(wù)則基于vLLM技術(shù)實(shí)現(xiàn),這是一個(gè)專門為大型語言模型優(yōu)化的推理引擎,能夠高效地處理AI的決策請求。

數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)特別值得關(guān)注。研究團(tuán)隊(duì)構(gòu)建了一個(gè)基于MySQL的中央數(shù)據(jù)庫,包含11個(gè)相互關(guān)聯(lián)的數(shù)據(jù)表,分為模型管理、數(shù)據(jù)管理、訓(xùn)練和推理四大類別。這個(gè)數(shù)據(jù)庫就像是整個(gè)系統(tǒng)的神經(jīng)中樞,記錄著每一次AI操作的詳細(xì)信息:哪個(gè)任務(wù)、使用了哪個(gè)模型版本、執(zhí)行了什么操作、獲得了什么結(jié)果。通過這些詳細(xì)的記錄,系統(tǒng)可以精確地分析AI的學(xué)習(xí)進(jìn)度,并據(jù)此調(diào)整訓(xùn)練策略。

在自適應(yīng)數(shù)據(jù)管理方面,動(dòng)態(tài)軌跡數(shù)量調(diào)節(jié)機(jī)制會(huì)根據(jù)任務(wù)的實(shí)時(shí)成功率來調(diào)整采樣頻次。當(dāng)某個(gè)任務(wù)的成功率超過60%時(shí),系統(tǒng)會(huì)將其軌跡采樣數(shù)量從8個(gè)減少到更低的值,釋放計(jì)算資源給那些更具挑戰(zhàn)性的任務(wù)。這種策略確保了計(jì)算資源總是被分配到最需要改進(jìn)的地方。

高熵步驟選擇機(jī)制的實(shí)現(xiàn)也很精巧。系統(tǒng)會(huì)計(jì)算AI在每個(gè)操作步驟中生成的文本(包括思考過程和具體動(dòng)作)的平均熵值。熵值高意味著AI在這個(gè)步驟中面臨更多的不確定性,需要做出更復(fù)雜的判斷。系統(tǒng)只選擇熵值排在前80%的步驟進(jìn)行重點(diǎn)訓(xùn)練,這樣既保證了訓(xùn)練效率,又確保了學(xué)習(xí)重點(diǎn)的準(zhǔn)確性。

分布對齊技術(shù)則解決了一個(gè)微妙但重要的問題。由于推理服務(wù)為了提高速度采用了量化等優(yōu)化技術(shù),而訓(xùn)練系統(tǒng)為了保證精度使用了不同的設(shè)置,這會(huì)導(dǎo)致同一個(gè)模型在不同環(huán)節(jié)中的"表達(dá)方式"略有差異。通過截?cái)嘀匾圆蓸樱到y(tǒng)可以校正這種差異,確保學(xué)習(xí)過程的一致性和穩(wěn)定性。

五、突破局限:從技術(shù)創(chuàng)新到實(shí)際應(yīng)用的橋梁

當(dāng)然,任何技術(shù)都有其局限性。研究團(tuán)隊(duì)也誠實(shí)地展示了DART-GUI-7B在某些情況下仍然會(huì)犯錯(cuò)。比如在Chrome瀏覽器中啟用"請勿跟蹤"功能的任務(wù)中,AI錯(cuò)誤地點(diǎn)擊了"網(wǎng)站設(shè)置"選項(xiàng),而不是正確的"第三方Cookie"選項(xiàng)。在VS Code中同時(shí)打開兩個(gè)工作空間的任務(wù)中,AI嘗試使用Ctrl+點(diǎn)擊的組合操作,但由于動(dòng)作空間的限制,這個(gè)操作被分解為先按Ctrl鍵再點(diǎn)擊,結(jié)果取消了第一個(gè)工作空間的選擇。

這些失敗案例揭示了當(dāng)前GUI智能體技術(shù)仍然面臨的挑戰(zhàn)。首先是推理能力的限制:雖然AI可以識別界面元素并執(zhí)行基本操作,但在理解復(fù)雜任務(wù)的邏輯關(guān)系和制定多步驟策略方面仍有不足。其次是動(dòng)作空間的限制:當(dāng)前的AI主要支持點(diǎn)擊、拖拽、輸入文本等基礎(chǔ)操作,對于更復(fù)雜的組合操作(如Ctrl+點(diǎn)擊)還無法很好地處理。

然而,這些局限性并不影響這項(xiàng)研究的重大意義。DART框架的核心貢獻(xiàn)在于提供了一個(gè)可擴(kuò)展的訓(xùn)練基礎(chǔ)設(shè)施,為GUI智能體的進(jìn)一步發(fā)展鋪平了道路。通過開源整個(gè)訓(xùn)練框架、數(shù)據(jù)集和模型檢查點(diǎn),研究團(tuán)隊(duì)為整個(gè)學(xué)術(shù)界和工業(yè)界提供了寶貴的資源。

從實(shí)際應(yīng)用的角度來看,這項(xiàng)技術(shù)的潛在影響是深遠(yuǎn)的。對于普通用戶來說,GUI智能體可以自動(dòng)化許多重復(fù)性的電腦操作,比如批量處理文件、定期備份數(shù)據(jù)、自動(dòng)填寫表單等。對于企業(yè)來說,這種技術(shù)可以顯著提高辦公效率,減少人工操作錯(cuò)誤,特別是在需要大量重復(fù)性GUI操作的場景中。

對于殘障人士來說,GUI智能體技術(shù)具有特殊的意義。它可以幫助視力或行動(dòng)不便的用戶更容易地使用電腦,通過語音指令就能完成復(fù)雜的軟件操作。這種技術(shù)的普及將大大提高數(shù)字化工具的可訪問性。

從技術(shù)發(fā)展的角度來看,DART框架的去耦合設(shè)計(jì)理念也為其他領(lǐng)域的AI訓(xùn)練提供了借鑒。無論是機(jī)器人控制、自動(dòng)駕駛還是其他需要多步驟決策的AI應(yīng)用,都可以從這種高效的異步訓(xùn)練架構(gòu)中受益。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了這項(xiàng)工作的開源性質(zhì)。他們承諾將完全開源訓(xùn)練框架、模型檢查點(diǎn)和精心整理的數(shù)據(jù)集,這種開放的態(tài)度將加速整個(gè)領(lǐng)域的發(fā)展。對于那些想要在這個(gè)基礎(chǔ)上進(jìn)行進(jìn)一步研究的團(tuán)隊(duì)來說,這無疑是一個(gè)巨大的福音。

說到底,DART框架的成功證明了一個(gè)重要觀點(diǎn):AI技術(shù)的進(jìn)步不僅僅依賴于算法的創(chuàng)新,同樣需要在訓(xùn)練方法和系統(tǒng)架構(gòu)方面的突破。通過將原本緊密耦合的訓(xùn)練過程分解為獨(dú)立并行的模塊,通過精心設(shè)計(jì)的自適應(yīng)數(shù)據(jù)管理策略,研究團(tuán)隊(duì)不僅讓AI變得更聰明,也讓訓(xùn)練過程變得更加高效。

這項(xiàng)研究為GUI智能體技術(shù)的發(fā)展開辟了新的道路。隨著訓(xùn)練方法的不斷改進(jìn)和計(jì)算資源的持續(xù)增長,我們有理由相信,能夠熟練操作各種軟件、幫助人們完成復(fù)雜電腦任務(wù)的AI助手將很快成為現(xiàn)實(shí)。對于那些對這個(gè)令人興奮的技術(shù)領(lǐng)域感興趣的讀者,可以通過論文編號arXiv:2509.23866v1查詢完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。

Q&A

Q1:DART-GUI-7B是什么?它比其他AI助手強(qiáng)在哪里?

A:DART-GUI-7B是由北京理工大學(xué)團(tuán)隊(duì)開發(fā)的AI電腦操作助手,它能夠像人類一樣操作電腦界面。相比其他AI助手,它的最大優(yōu)勢是訓(xùn)練效率極高,GPU利用率提升1.6倍,環(huán)境利用率提升5.5倍,在OSWorld測試中達(dá)到42.13%的成功率,比基礎(chǔ)模型提高了14.61個(gè)百分點(diǎn)。

Q2:DART框架的去耦合訓(xùn)練是怎么工作的?

A:DART框架將傳統(tǒng)的線性訓(xùn)練過程分解為四個(gè)獨(dú)立運(yùn)行的模塊:環(huán)境集群、推理服務(wù)、數(shù)據(jù)管理和訓(xùn)練器。這就像把手工作坊改造成現(xiàn)代工廠,四個(gè)車間可以同時(shí)工作而不用互相等待,大大提高了訓(xùn)練效率和資源利用率。

Q3:普通人什么時(shí)候能用上這種AI電腦助手?

A:目前DART-GUI-7B還處在研究階段,但研究團(tuán)隊(duì)已經(jīng)承諾完全開源所有代碼、模型和數(shù)據(jù)。隨著技術(shù)的快速發(fā)展和開源社區(qū)的推動(dòng),預(yù)計(jì)在不久的將來就會(huì)有基于這項(xiàng)技術(shù)的實(shí)用產(chǎn)品出現(xiàn),幫助人們自動(dòng)化處理重復(fù)性的電腦操作任務(wù)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-