av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI智能助手終于學(xué)會(huì)像人類一樣操作電腦軟件:上海AI實(shí)驗(yàn)室團(tuán)隊(duì)打造大腦分工新模式

AI智能助手終于學(xué)會(huì)像人類一樣操作電腦軟件:上海AI實(shí)驗(yàn)室團(tuán)隊(duì)打造大腦分工新模式

2025-09-04 09:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-04 09:56 ? 科技行者

當(dāng)你打開一個(gè)復(fù)雜的科學(xué)軟件,比如天文觀測(cè)軟件Celestia或者分子建模軟件ChimeraX時(shí),是否曾經(jīng)被滿屏的按鈕、菜單和選項(xiàng)搞得頭暈眼花?更別說讓一個(gè)AI助手來幫你完成這些復(fù)雜的操作了。但是現(xiàn)在,這個(gè)看似不可能的任務(wù)有了突破性進(jìn)展。

這項(xiàng)由上海交通大學(xué)、上海AI實(shí)驗(yàn)室、香港中文大學(xué)和香港大學(xué)聯(lián)合完成的研究,發(fā)表在2025年8月的arXiv預(yù)印本平臺(tái)上,論文編號(hào)為arXiv:2508.20096v1。有興趣深入了解的讀者可以通過https://github.com/OpenIXCLab/CODA訪問完整的代碼和模型。研究團(tuán)隊(duì)的成員包括孫澤逸、曹宇航、梁健澤等多位學(xué)者,他們共同開發(fā)了一個(gè)名為CODA的AI系統(tǒng)。

這個(gè)系統(tǒng)最有趣的地方在于,它模仿了人類大腦的工作方式——就像我們大腦中的大腦皮層負(fù)責(zé)高級(jí)思考,而小腦負(fù)責(zé)精確的動(dòng)作控制一樣。CODA也分為兩個(gè)部分:一個(gè)"大腦皮層"負(fù)責(zé)制定計(jì)劃,另一個(gè)"小腦"負(fù)責(zé)執(zhí)行具體的鼠標(biāo)點(diǎn)擊和鍵盤操作。這種分工合作的方式讓AI在操作復(fù)雜軟件時(shí)變得更加聰明和可靠。

傳統(tǒng)的AI助手在面對(duì)專業(yè)軟件時(shí)往往會(huì)遇到兩難境地:要么擅長(zhǎng)制定宏觀策略但在具體操作時(shí)手忙腳亂,要么能精確執(zhí)行單個(gè)動(dòng)作但缺乏全局規(guī)劃能力。就像一個(gè)人要么只會(huì)畫建筑藍(lán)圖卻不會(huì)砌墻,要么只會(huì)砌墻卻不知道房子應(yīng)該建成什么樣子。CODA的創(chuàng)新之處就是讓這兩種能力完美結(jié)合,通過專門的訓(xùn)練方法讓AI的"規(guī)劃大腦"變得越來越聰明,同時(shí)保持"執(zhí)行小腦"的穩(wěn)定可靠。

更令人驚喜的是,這個(gè)系統(tǒng)還能通過經(jīng)驗(yàn)自主學(xué)習(xí)和改進(jìn)。它會(huì)自動(dòng)生成新的任務(wù)來挑戰(zhàn)自己,就像一個(gè)勤奮的學(xué)生不斷給自己出練習(xí)題一樣。當(dāng)它在某個(gè)軟件上犯錯(cuò)時(shí),系統(tǒng)會(huì)分析錯(cuò)誤原因,然后生成更多相關(guān)的練習(xí)來彌補(bǔ)短板。這種自我完善的能力讓CODA在四個(gè)不同的科學(xué)軟件上都取得了顯著的性能提升,成為目前開源模型中的佼佼者。

一、從手忙腳亂到游刃有余:AI操作軟件的新思路

當(dāng)我們第一次使用Photoshop或者Excel這樣的復(fù)雜軟件時(shí),往往會(huì)感到無從下手。即使知道要完成什么任務(wù),也不知道該點(diǎn)哪個(gè)按鈕,該從哪個(gè)菜單開始。對(duì)于AI來說,這個(gè)挑戰(zhàn)更加艱巨,因?yàn)樗粌H要理解任務(wù)目標(biāo),還要準(zhǔn)確識(shí)別屏幕上密密麻麻的界面元素,并且精確地進(jìn)行鼠標(biāo)點(diǎn)擊和鍵盤輸入。

以往的AI助手通常采用"一人包攬"的方式來解決這個(gè)問題,就像讓一個(gè)人既當(dāng)總指揮又當(dāng)具體執(zhí)行者。這種方式的問題很明顯:當(dāng)AI忙著思考大策略時(shí),手上的動(dòng)作就容易出錯(cuò);當(dāng)它專注于精確操作時(shí),又容易丟掉大局觀。結(jié)果就是要么計(jì)劃很完美但執(zhí)行一塌糊涂,要么動(dòng)作很精準(zhǔn)但不知道在干什么。

研究團(tuán)隊(duì)敏銳地觀察到,人類大腦其實(shí)有著精妙的分工機(jī)制。我們的大腦皮層負(fù)責(zé)高級(jí)認(rèn)知功能,比如理解任務(wù)目標(biāo)、制定行動(dòng)計(jì)劃、分析當(dāng)前情況等;而小腦則專門負(fù)責(zé)運(yùn)動(dòng)控制,比如精確的手眼協(xié)調(diào)、肌肉記憶等。更重要的是,這兩個(gè)部分有著不同的學(xué)習(xí)特點(diǎn):大腦皮層需要不斷學(xué)習(xí)新知識(shí)和適應(yīng)新情況,而小腦一旦掌握了基本技能就相對(duì)穩(wěn)定,不需要頻繁更新。

基于這個(gè)觀察,CODA采用了全新的設(shè)計(jì)思路。它的"大腦皮層"部分使用的是Qwen2.5-VL模型,這是一個(gè)擅長(zhǎng)理解圖像和文字的大型AI模型,負(fù)責(zé)觀察屏幕截圖、理解任務(wù)要求、分析當(dāng)前情況并制定下一步計(jì)劃。它會(huì)生成類似"現(xiàn)在需要點(diǎn)擊文件菜單打開設(shè)置對(duì)話框"這樣的高層次思考。

而"小腦"部分則使用UI-TARS-1.5模型,這是一個(gè)專門訓(xùn)練用來執(zhí)行GUI操作的模型。它接收來自"大腦皮層"的指令,然后將其轉(zhuǎn)換為具體的操作代碼,比如"pyautogui.click(x=758, y=427)"這樣的精確鼠標(biāo)點(diǎn)擊命令。這個(gè)"小腦"就像一個(gè)經(jīng)驗(yàn)豐富的操作員,知道如何準(zhǔn)確地在屏幕上找到目標(biāo)并執(zhí)行動(dòng)作。

這種分工帶來了顯著的好處。首先,每個(gè)組件都能專注于自己最擅長(zhǎng)的任務(wù),避免了"樣樣通樣樣松"的問題。其次,當(dāng)需要適應(yīng)新軟件時(shí),只需要訓(xùn)練"大腦皮層"學(xué)習(xí)新的規(guī)劃策略,而"小腦"的基礎(chǔ)操作技能可以保持不變,大大提高了訓(xùn)練效率。最后,這種架構(gòu)更容易進(jìn)行針對(duì)性的改進(jìn)和調(diào)試。

實(shí)驗(yàn)結(jié)果證明了這種設(shè)計(jì)的有效性。在四個(gè)不同的科學(xué)軟件測(cè)試中,CODA的表現(xiàn)都遠(yuǎn)超傳統(tǒng)的單一模型方法。更重要的是,它的成功率隨著經(jīng)驗(yàn)的積累而不斷提升,展現(xiàn)出了真正的學(xué)習(xí)能力。

二、從新手到專家:AI如何通過實(shí)戰(zhàn)磨練技能

就像人類學(xué)習(xí)使用新軟件一樣,CODA也需要經(jīng)歷從生疏到熟練的過程。但是,傳統(tǒng)的AI訓(xùn)練方法需要大量的人工標(biāo)注數(shù)據(jù),這在專業(yè)軟件領(lǐng)域是非常困難和昂貴的??茖W(xué)軟件通常很復(fù)雜,需要專業(yè)知識(shí)才能正確操作,普通人很難提供高質(zhì)量的訓(xùn)練樣本。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的兩階段訓(xùn)練策略,就像培養(yǎng)一個(gè)全能的軟件工程師一樣。第一階段叫做"專業(yè)化",讓AI分別在不同的軟件上進(jìn)行深度訓(xùn)練,成為各個(gè)領(lǐng)域的專家。第二階段叫做"通用化",將各個(gè)專家的經(jīng)驗(yàn)整合起來,培養(yǎng)出一個(gè)具有廣泛適應(yīng)能力的通用助手。

在專業(yè)化階段,CODA采用了一種叫做"解耦強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法。這個(gè)名字聽起來很復(fù)雜,但原理其實(shí)很直觀。傳統(tǒng)的強(qiáng)化學(xué)習(xí)就像讓一個(gè)人同時(shí)學(xué)習(xí)開車和修車,往往會(huì)相互干擾。解耦強(qiáng)化學(xué)習(xí)則像讓一個(gè)人專門學(xué)習(xí)駕駛技術(shù),而把修車技能交給另一個(gè)已經(jīng)很熟練的師傅。

具體來說,CODA在訓(xùn)練時(shí)保持"小腦"部分完全不變,只讓"大腦皮層"通過試錯(cuò)來學(xué)習(xí)。每當(dāng)"大腦皮層"產(chǎn)生一個(gè)計(jì)劃時(shí),"小腦"就會(huì)忠實(shí)地執(zhí)行,然后系統(tǒng)會(huì)評(píng)估最終結(jié)果的好壞。如果結(jié)果不理想,"大腦皮層"就會(huì)調(diào)整策略;如果結(jié)果很好,就會(huì)強(qiáng)化這種思維模式。

這個(gè)過程中最關(guān)鍵的是如何評(píng)估結(jié)果的好壞。研究團(tuán)隊(duì)開發(fā)了一個(gè)智能評(píng)判系統(tǒng),就像一個(gè)經(jīng)驗(yàn)豐富的軟件教師一樣。這個(gè)評(píng)判系統(tǒng)會(huì)仔細(xì)觀察整個(gè)操作過程的屏幕截圖序列,然后判斷是否正確完成了任務(wù)、是否有多余的操作、在哪一步開始出錯(cuò)等等。

評(píng)判系統(tǒng)的工作原理很有趣。它不僅會(huì)看最終結(jié)果,還會(huì)分析整個(gè)操作過程。比如,如果任務(wù)是"在Celestia軟件中將Julian日期設(shè)置為2400000",評(píng)判系統(tǒng)會(huì)檢查AI是否成功打開了時(shí)間菜單、是否找到了正確的設(shè)置選項(xiàng)、是否輸入了正確的數(shù)值等等。如果某一步出現(xiàn)錯(cuò)誤,系統(tǒng)會(huì)準(zhǔn)確指出問題所在,并給出改進(jìn)建議。

為了提高評(píng)判的準(zhǔn)確性,研究團(tuán)隊(duì)還使用了多種策略。首先是"投票機(jī)制",讓評(píng)判系統(tǒng)多次獨(dú)立評(píng)估同一個(gè)操作序列,只有當(dāng)所有評(píng)估都一致認(rèn)為成功時(shí)才算真正成功。其次是"多分辨率輸入",同時(shí)使用高分辨率和低分辨率的屏幕截圖進(jìn)行分析,高分辨率圖像幫助檢查細(xì)節(jié)準(zhǔn)確性,低分辨率圖像幫助把握整體流程。最后是"模型集成",結(jié)合多個(gè)不同的評(píng)判模型來提高判斷的可靠性。

在專業(yè)化階段完成后,CODA會(huì)在每個(gè)軟件上都產(chǎn)生一個(gè)專門的專家模型。比如會(huì)有一個(gè)Celestia專家、一個(gè)ChimeraX專家、一個(gè)QGIS專家等等。每個(gè)專家都對(duì)自己負(fù)責(zé)的軟件非常熟悉,知道各種操作的技巧和注意事項(xiàng)。

然后進(jìn)入通用化階段。這個(gè)階段的目標(biāo)是培養(yǎng)一個(gè)能夠處理所有軟件的通用助手。研究團(tuán)隊(duì)讓各個(gè)專家在自己熟悉的軟件上生成大量高質(zhì)量的操作示例,就像讓各行業(yè)的資深專家寫操作手冊(cè)一樣。然后使用這些高質(zhì)量的示例來訓(xùn)練一個(gè)全新的通用模型。

有趣的是,這個(gè)通用模型的表現(xiàn)往往超過了單個(gè)專家的平均水平。這說明不同軟件之間確實(shí)存在共同的操作模式和思維方式,當(dāng)AI掌握了這些通用規(guī)律后,就能更好地理解和操作各種軟件。這就像一個(gè)熟練的軟件用戶在學(xué)習(xí)新軟件時(shí)總是比新手更快上手,因?yàn)樗麄冋莆樟送ㄓ玫慕缑嬖O(shè)計(jì)原理和操作邏輯。

三、自主學(xué)習(xí)的秘密武器:AI如何給自己出題練習(xí)

CODA最令人印象深刻的能力之一是它能夠自主生成新的學(xué)習(xí)任務(wù)。這就像一個(gè)勤奮的學(xué)生不僅能完成老師布置的作業(yè),還會(huì)主動(dòng)給自己出練習(xí)題來鞏固知識(shí)。這種能力對(duì)于AI在專業(yè)軟件領(lǐng)域的應(yīng)用特別重要,因?yàn)閷I(yè)軟件的使用場(chǎng)景千變?nèi)f化,不可能通過預(yù)先準(zhǔn)備的訓(xùn)練數(shù)據(jù)覆蓋所有情況。

這個(gè)自主學(xué)習(xí)系統(tǒng)的核心是一個(gè)任務(wù)生成器,使用的是Qwen2.5-72B模型作為"出題老師"。這個(gè)出題老師會(huì)根據(jù)AI當(dāng)前的學(xué)習(xí)狀態(tài)和表現(xiàn)情況,自動(dòng)設(shè)計(jì)新的練習(xí)任務(wù)。它就像一個(gè)了解學(xué)生水平的私人教師,知道應(yīng)該在什么時(shí)候出什么樣的題目。

任務(wù)生成的過程很有趣。出題老師首先會(huì)分析AI在之前任務(wù)中的表現(xiàn),找出薄弱環(huán)節(jié)和需要加強(qiáng)的地方。比如,如果發(fā)現(xiàn)AI在處理ChimeraX軟件的分子碰撞檢測(cè)功能時(shí)經(jīng)常出錯(cuò),出題老師就會(huì)專門設(shè)計(jì)更多相關(guān)的練習(xí)題。這些題目不會(huì)是簡(jiǎn)單的重復(fù),而是會(huì)從不同角度考察同一個(gè)知識(shí)點(diǎn),比如"檢測(cè)VDW重疊大于0.3A的所有碰撞"、"找出蛋白質(zhì)結(jié)構(gòu)中的潛在沖突區(qū)域"等等。

出題老師在設(shè)計(jì)任務(wù)時(shí)遵循幾個(gè)重要原則。首先,任務(wù)必須是高層次的目標(biāo)描述,而不是詳細(xì)的操作步驟。比如會(huì)說"在QGIS中創(chuàng)建一個(gè)顯示人口密度的專題地圖",而不會(huì)說"點(diǎn)擊圖層菜單,然后選擇添加圖層選項(xiàng)"。這樣可以鍛煉AI的規(guī)劃能力而不是死記硬背。

其次,每個(gè)任務(wù)都應(yīng)該包含多個(gè)操作步驟,通常需要5到20個(gè)步驟才能完成。這樣的任務(wù)更接近真實(shí)的軟件使用場(chǎng)景,可以測(cè)試AI的長(zhǎng)期規(guī)劃和執(zhí)行能力。同時(shí),任務(wù)之間應(yīng)該相互獨(dú)立,避免產(chǎn)生依賴關(guān)系。

第三,新任務(wù)應(yīng)該針對(duì)AI之前的錯(cuò)誤進(jìn)行有針對(duì)性的練習(xí)。如果AI在某個(gè)操作上反復(fù)出錯(cuò),出題老師就會(huì)設(shè)計(jì)專門的矯正練習(xí)。這就像數(shù)學(xué)老師發(fā)現(xiàn)學(xué)生總是在分?jǐn)?shù)運(yùn)算上出錯(cuò),就會(huì)專門出更多分?jǐn)?shù)題目來加強(qiáng)練習(xí)。

為了確保任務(wù)的可執(zhí)行性,出題老師還會(huì)考慮當(dāng)前軟件的狀態(tài)。比如,如果當(dāng)前QGIS中沒有加載任何地圖數(shù)據(jù),就不會(huì)出"計(jì)算兩個(gè)圖層的交集"這樣的題目。這種上下文感知能力讓生成的任務(wù)更加合理和有效。

整個(gè)自主學(xué)習(xí)過程是在一個(gè)分布式的虛擬機(jī)系統(tǒng)中進(jìn)行的。研究團(tuán)隊(duì)搭建了一個(gè)由15臺(tái)服務(wù)器組成的集群,其中13臺(tái)配備AMD處理器,2臺(tái)配備高性能的Intel i9和RTX 4090顯卡來處理圖形密集的軟件如ChimeraX。每臺(tái)服務(wù)器可以同時(shí)運(yùn)行4到8個(gè)獨(dú)立的虛擬環(huán)境,這樣可以并行執(zhí)行大量的練習(xí)任務(wù),大大加快了學(xué)習(xí)速度。

這個(gè)分布式系統(tǒng)采用了主從架構(gòu)設(shè)計(jì)。主控節(jié)點(diǎn)負(fù)責(zé)任務(wù)分發(fā)和結(jié)果收集,就像一個(gè)總調(diào)度員;而客戶端節(jié)點(diǎn)則在獨(dú)立的虛擬機(jī)環(huán)境中執(zhí)行具體的任務(wù),就像一個(gè)個(gè)獨(dú)立的實(shí)驗(yàn)室。這種設(shè)計(jì)不僅提高了效率,還增強(qiáng)了系統(tǒng)的穩(wěn)定性和可擴(kuò)展性。

在實(shí)際運(yùn)行過程中,系統(tǒng)會(huì)持續(xù)監(jiān)控AI的學(xué)習(xí)進(jìn)度。當(dāng)發(fā)現(xiàn)某個(gè)類型的任務(wù)成功率提高到一定水平時(shí),就會(huì)逐漸增加任務(wù)難度或者轉(zhuǎn)向其他薄弱環(huán)節(jié)。當(dāng)發(fā)現(xiàn)某個(gè)特定操作的成功率下降時(shí),就會(huì)增加相關(guān)的練習(xí)頻次。這種動(dòng)態(tài)調(diào)整機(jī)制確保了學(xué)習(xí)過程的高效性和針對(duì)性。

通過這種自主學(xué)習(xí)方法,CODA在四個(gè)測(cè)試軟件上的表現(xiàn)都得到了顯著提升。更重要的是,它展現(xiàn)出了真正的適應(yīng)能力——當(dāng)面對(duì)新的軟件或新的任務(wù)類型時(shí),能夠快速調(diào)整策略并找到有效的解決方案。這種能力讓CODA從一個(gè)只能執(zhí)行預(yù)定操作的工具,變成了一個(gè)能夠自主學(xué)習(xí)和改進(jìn)的智能助手。

四、實(shí)戰(zhàn)檢驗(yàn):CODA在復(fù)雜軟件中的精彩表現(xiàn)

理論再完美,也需要實(shí)踐來檢驗(yàn)。研究團(tuán)隊(duì)選擇了四個(gè)具有代表性的科學(xué)軟件來測(cè)試CODA的實(shí)際能力:天文軟件Celestia、分子建模軟件ChimeraX、地理信息系統(tǒng)QGIS,以及數(shù)學(xué)計(jì)算軟件用于代數(shù)運(yùn)算。這些軟件不僅界面復(fù)雜,而且需要專業(yè)知識(shí)才能正確操作,是檢驗(yàn)AI軟件操作能力的絕佳試驗(yàn)場(chǎng)。

測(cè)試結(jié)果令人印象深刻。在綜合評(píng)估中,CODA的第一階段專家模型平均成功率達(dá)到了14.39%,而基準(zhǔn)模型只有7.57%。這個(gè)提升看起來數(shù)字不大,但要知道這些都是非常復(fù)雜的多步驟任務(wù),每個(gè)任務(wù)通常需要10多個(gè)準(zhǔn)確的操作才能完成。能夠?qū)⒊晒β蕩缀醴叮呀?jīng)是一個(gè)巨大的進(jìn)步。

更令人驚喜的是第二階段通用化模型的表現(xiàn)。這個(gè)通過整合所有專家知識(shí)訓(xùn)練出來的通用助手,平均成功率達(dá)到了21.04%,不僅遠(yuǎn)超基準(zhǔn)模型,甚至超過了單個(gè)專家的表現(xiàn)。這證明了不同軟件之間確實(shí)存在可以相互借鑒的通用規(guī)律和技能。

在具體的軟件表現(xiàn)上,CODA在不同領(lǐng)域都展現(xiàn)出了強(qiáng)大的適應(yīng)能力。在天文軟件Celestia中,從最初的10.48%成功率提升到最終的20.16%。這個(gè)軟件涉及復(fù)雜的時(shí)間設(shè)置、視角控制和天體導(dǎo)航等操作,需要精確的參數(shù)輸入和良好的空間想象能力。

分子建模軟件ChimeraX的提升更加顯著,從13.79%躍升到32.23%。這個(gè)軟件用于生物分子的三維可視化和分析,操作包括加載分子結(jié)構(gòu)、調(diào)整顯示樣式、計(jì)算分子間作用力等高度專業(yè)化的功能。CODA能在這個(gè)領(lǐng)域取得如此進(jìn)步,說明它真正掌握了分子建模的基本原理和操作邏輯。

地理信息系統(tǒng)QGIS的進(jìn)步最為突出,從僅有1.47%的成功率大幅提升到14.71%。QGIS是處理地理空間數(shù)據(jù)的專業(yè)軟件,涉及地圖制作、空間分析、數(shù)據(jù)可視化等復(fù)雜功能。這個(gè)領(lǐng)域的顯著進(jìn)步表明CODA不僅能處理界面操作,還能理解地理空間的概念和邏輯關(guān)系。

代數(shù)運(yùn)算軟件的表現(xiàn)同樣令人滿意,從4.55%提升到17.05%。數(shù)學(xué)計(jì)算軟件需要精確的公式輸入和符號(hào)操作,對(duì)AI的理解能力和精確性都提出了很高要求。CODA在這個(gè)領(lǐng)域的成功說明它不僅能進(jìn)行界面操作,還能理解抽象的數(shù)學(xué)概念。

為了更全面地評(píng)估性能,研究團(tuán)隊(duì)還測(cè)試了"Pass@8"指標(biāo),即給AI八次嘗試機(jī)會(huì)看能否成功完成任務(wù)。在這個(gè)更寬松的評(píng)估標(biāo)準(zhǔn)下,CODA的整體成功率達(dá)到了39.96%,相比基準(zhǔn)模型的19.49%有了顯著提升。這表明即使AI在第一次嘗試時(shí)失敗,它也有很高的概率在后續(xù)嘗試中找到正確的解決方案。

有趣的是,研究團(tuán)隊(duì)還對(duì)比了CODA與其他先進(jìn)AI模型的表現(xiàn)。包括GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash等商業(yè)模型,以及多個(gè)開源的專業(yè)GUI操作模型。結(jié)果顯示,雖然某些商業(yè)模型在個(gè)別軟件上表現(xiàn)出色,但沒有任何一個(gè)模型能在所有軟件上都保持穩(wěn)定的高性能。而CODA作為開源模型,不僅在平均性能上取得了最佳成績(jī),更重要的是展現(xiàn)出了良好的跨領(lǐng)域適應(yīng)能力。

通過具體的操作案例分析,可以更直觀地看到CODA的進(jìn)步。在Celestia軟件的Julian日期設(shè)置任務(wù)中,早期的CODA經(jīng)常會(huì)點(diǎn)錯(cuò)菜單或者輸入錯(cuò)誤的數(shù)值。但經(jīng)過訓(xùn)練后,它學(xué)會(huì)了準(zhǔn)確識(shí)別時(shí)間菜單的位置,正確處理彈出對(duì)話框,甚至能夠應(yīng)對(duì)界面上出現(xiàn)的干擾因素如軟件更新提醒等。

在ChimeraX的分子碰撞檢測(cè)任務(wù)中,CODA不僅學(xué)會(huì)了基本的操作流程,還掌握了參數(shù)設(shè)置的技巧。它知道如何調(diào)整VDW重疊閾值,如何解讀結(jié)果顯示,甚至能夠在檢測(cè)到問題時(shí)采取相應(yīng)的糾正措施。

這些實(shí)戰(zhàn)表現(xiàn)證明了CODA不僅僅是一個(gè)能夠機(jī)械執(zhí)行操作的工具,而是一個(gè)真正理解軟件功能和操作邏輯的智能助手。它的成功為AI在專業(yè)軟件領(lǐng)域的應(yīng)用開辟了新的可能性,也為人機(jī)協(xié)作提供了更好的技術(shù)基礎(chǔ)。

五、精益求精的評(píng)判系統(tǒng):讓AI學(xué)會(huì)自我反省

在整個(gè)CODA系統(tǒng)中,評(píng)判系統(tǒng)扮演著至關(guān)重要的角色,就像一位嚴(yán)格而公正的老師,負(fù)責(zé)評(píng)估AI的每一次操作嘗試。這個(gè)系統(tǒng)的質(zhì)量直接決定了AI能否從錯(cuò)誤中學(xué)到正確的經(jīng)驗(yàn),因此研究團(tuán)隊(duì)在這方面投入了大量精力。

傳統(tǒng)的AI訓(xùn)練往往依賴簡(jiǎn)單的成功失敗判斷,但這在復(fù)雜軟件操作中是遠(yuǎn)遠(yuǎn)不夠的。一個(gè)看似失敗的操作可能包含很多正確的步驟,而一個(gè)最終成功的操作也可能存在效率問題或隱藏錯(cuò)誤。CODA的評(píng)判系統(tǒng)就像一個(gè)經(jīng)驗(yàn)豐富的軟件測(cè)試專家,不僅要看結(jié)果,還要仔細(xì)分析整個(gè)過程。

這個(gè)評(píng)判系統(tǒng)基于Qwen2.5-VL-72B模型構(gòu)建,經(jīng)過專門的微調(diào)訓(xùn)練來提高判斷準(zhǔn)確性。訓(xùn)練數(shù)據(jù)包含了4700多個(gè)精心標(biāo)注的操作軌跡樣本,這些樣本來自多個(gè)不同的軟件環(huán)境和任務(wù)場(chǎng)景,確保了評(píng)判系統(tǒng)的廣泛適用性。

評(píng)判過程就像一個(gè)詳細(xì)的操作審計(jì)。系統(tǒng)會(huì)接收完整的屏幕截圖序列,就像觀看一部操作錄像一樣,然后分析每一個(gè)步驟的合理性。它需要回答幾個(gè)關(guān)鍵問題:操作是否正確完成了預(yù)定目標(biāo)?是否存在多余或重復(fù)的步驟?如果出現(xiàn)錯(cuò)誤,第一個(gè)錯(cuò)誤步驟是什么?應(yīng)該如何改正?

為了提高評(píng)判的準(zhǔn)確性和可靠性,研究團(tuán)隊(duì)開發(fā)了多種策略。首先是投票機(jī)制。系統(tǒng)不會(huì)僅憑一次判斷就下結(jié)論,而是會(huì)進(jìn)行多次獨(dú)立評(píng)估,每次都使用不同的隨機(jī)參數(shù)設(shè)置。只有當(dāng)多次評(píng)估都得出一致結(jié)論時(shí),才認(rèn)為判斷是可信的。這就像法庭上需要多位陪審員一致同意才能做出判決一樣。

其次是多分辨率輸入策略。復(fù)雜軟件的操作軌跡往往包含很多高分辨率的屏幕截圖,直接處理這些圖像不僅計(jì)算量大,而且容易忽略整體流程。因此,系統(tǒng)會(huì)同時(shí)使用高分辨率和低分辨率的圖像進(jìn)行分析。高分辨率圖像用于檢查細(xì)節(jié)的準(zhǔn)確性,比如鼠標(biāo)是否點(diǎn)擊在正確的按鈕上;低分辨率圖像則用于把握整體的操作流程,比如是否按照合理的順序打開了各個(gè)界面。

第三個(gè)策略是模型集成。除了主要的判斷模型外,系統(tǒng)還會(huì)結(jié)合其他模型的意見來提高決策質(zhì)量。這就像在重要決策時(shí)會(huì)咨詢多位專家的意見一樣,通過綜合不同模型的判斷來減少單一模型可能存在的偏見或錯(cuò)誤。

在實(shí)際評(píng)估中,這些策略的效果非常明顯。在AgentRewardBench基準(zhǔn)測(cè)試中,單一模型的精確度為64.5%,而采用投票機(jī)制后提升到76.1%,加入多分辨率輸入后進(jìn)一步提升到78.9%,最終的集成模型達(dá)到了81.2%的精確度。在更接近實(shí)際應(yīng)用的ScienceBoard測(cè)試中,改進(jìn)更加顯著,從最初的41.5%精確度大幅提升到最終的69.5%。

評(píng)判系統(tǒng)的工作細(xì)節(jié)很有意思。當(dāng)分析一個(gè)操作序列時(shí),它會(huì)生成詳細(xì)的分步驟說明,就像一份操作報(bào)告。比如在分析Celestia軟件的時(shí)間設(shè)置任務(wù)時(shí),系統(tǒng)會(huì)注意到"第一步:用戶點(diǎn)擊了導(dǎo)航菜單而不是時(shí)間菜單,這是一個(gè)錯(cuò)誤","第二步:用戶意識(shí)到錯(cuò)誤并點(diǎn)擊了正確的時(shí)間菜單,這是一個(gè)合理的糾正","第三步:彈出的軟件更新提醒干擾了操作,用戶正確地關(guān)閉了這個(gè)干擾窗口"等等。

這種詳細(xì)的分析不僅幫助AI理解錯(cuò)誤的具體原因,還能學(xué)習(xí)如何處理各種意外情況。比如學(xué)會(huì)在操作過程中如何應(yīng)對(duì)彈出窗口的干擾,如何從錯(cuò)誤中快速恢復(fù),如何識(shí)別和跳過無關(guān)的界面元素等等。

評(píng)判系統(tǒng)還具有一定的容錯(cuò)能力。它理解軟件操作中的多樣性和靈活性,不會(huì)因?yàn)椴僮鞣绞脚c標(biāo)準(zhǔn)答案略有不同就判定為錯(cuò)誤。比如,在完成同一個(gè)任務(wù)時(shí),有些用戶喜歡使用快捷鍵,有些用戶喜歡使用菜單,評(píng)判系統(tǒng)會(huì)認(rèn)識(shí)到這些只是風(fēng)格差異而不是對(duì)錯(cuò)問題。

通過這個(gè)精密的評(píng)判系統(tǒng),CODA能夠獲得高質(zhì)量的反饋信號(hào),從而在訓(xùn)練過程中不斷改進(jìn)自己的操作策略。這種自我反省和持續(xù)改進(jìn)的能力,讓CODA從一個(gè)簡(jiǎn)單的操作工具進(jìn)化成了一個(gè)真正智能的軟件助手。

說到底,CODA這項(xiàng)研究為我們展示了AI發(fā)展的一個(gè)新方向。與其讓AI樣樣都學(xué)、樣樣通但樣樣松,不如讓它像人類大腦一樣進(jìn)行專業(yè)分工,讓擅長(zhǎng)規(guī)劃的部分負(fù)責(zé)思考,讓擅長(zhǎng)執(zhí)行的部分負(fù)責(zé)動(dòng)作。這種"術(shù)業(yè)有專攻"的設(shè)計(jì)理念不僅提高了效率,更重要的是讓AI具備了真正的學(xué)習(xí)和適應(yīng)能力。

現(xiàn)在的CODA雖然還不完美,在某些復(fù)雜任務(wù)上的成功率仍有待提高,但它已經(jīng)證明了這個(gè)方向的可行性。更令人期待的是,這種分工協(xié)作的框架具有很好的可擴(kuò)展性。未來我們可以想象,不同的AI模塊負(fù)責(zé)不同的專業(yè)領(lǐng)域,比如一個(gè)專門負(fù)責(zé)圖像處理軟件的"視覺專家",一個(gè)專門負(fù)責(zé)數(shù)據(jù)分析軟件的"統(tǒng)計(jì)專家",還有一個(gè)負(fù)責(zé)協(xié)調(diào)所有專家工作的"總指揮"。

這項(xiàng)研究的意義遠(yuǎn)不止于讓AI學(xué)會(huì)操作軟件。它為人機(jī)協(xié)作開辟了新的可能性。我們可以想象,在不久的將來,當(dāng)你面對(duì)一個(gè)復(fù)雜的專業(yè)軟件時(shí),不再需要花費(fèi)大量時(shí)間學(xué)習(xí)各種功能和操作技巧,而是可以直接告訴AI助手你想要達(dá)成的目標(biāo),然后它會(huì)像一個(gè)經(jīng)驗(yàn)豐富的同事一樣幫你完成所有繁瑣的操作步驟。

對(duì)于科研工作者來說,這意味著可以把更多精力集中在創(chuàng)意和分析上,而不是糾結(jié)于軟件操作的細(xì)節(jié)。對(duì)于普通用戶來說,這意味著復(fù)雜的專業(yè)軟件將變得更加易用和親民。對(duì)于軟件開發(fā)者來說,這也提供了一個(gè)全新的思路——也許未來的軟件界面設(shè)計(jì)不僅要考慮人類用戶,也要考慮AI助手的需求。

當(dāng)然,這個(gè)領(lǐng)域還有很多挑戰(zhàn)需要解決。比如如何讓AI更好地理解人類的意圖,如何處理更加動(dòng)態(tài)和不可預(yù)測(cè)的軟件環(huán)境,如何確保AI操作的安全性和可控性等等。但CODA的成功已經(jīng)為這些挑戰(zhàn)的解決提供了一個(gè)堅(jiān)實(shí)的起點(diǎn)。

歸根結(jié)底,CODA不僅僅是一個(gè)技術(shù)創(chuàng)新,更是對(duì)人工智能發(fā)展道路的深入思考。它告訴我們,真正的智能不是要做一個(gè)萬能的超人,而是要學(xué)會(huì)像人類一樣進(jìn)行合理的分工協(xié)作,充分發(fā)揮每個(gè)組件的專長(zhǎng),并且具備持續(xù)學(xué)習(xí)和自我改進(jìn)的能力。這個(gè)理念不僅適用于軟件操作,也為AI在其他領(lǐng)域的應(yīng)用提供了有價(jià)值的啟發(fā)。

Q&A

Q1:CODA是什么?它和普通的AI助手有什么不同?

A:CODA是由上海AI實(shí)驗(yàn)室等機(jī)構(gòu)開發(fā)的AI系統(tǒng),專門用來操作復(fù)雜的專業(yè)軟件。它最大的特點(diǎn)是模仿人類大腦的分工方式,分為負(fù)責(zé)規(guī)劃的"大腦皮層"和負(fù)責(zé)執(zhí)行的"小腦"兩個(gè)部分。不像普通AI助手只能處理簡(jiǎn)單對(duì)話,CODA能夠理解屏幕界面,制定操作計(jì)劃,并精確執(zhí)行鼠標(biāo)點(diǎn)擊等復(fù)雜操作。

Q2:CODA能操作哪些軟件?普通人能使用嗎?

A:目前CODA主要在四個(gè)科學(xué)軟件上進(jìn)行了測(cè)試:天文軟件Celestia、分子建模軟件ChimeraX、地理信息系統(tǒng)QGIS和數(shù)學(xué)計(jì)算軟件。研究團(tuán)隊(duì)已經(jīng)開源了代碼和模型,技術(shù)人員可以通過GitHub獲取。不過現(xiàn)在還處于研究階段,普通用戶暫時(shí)無法直接使用,需要等待進(jìn)一步的產(chǎn)品化開發(fā)。

Q3:CODA的成功率有多高?能完全替代人工操作嗎?

A:CODA在復(fù)雜的多步驟任務(wù)中平均成功率約為21%,雖然聽起來不高,但要知道這些任務(wù)通常需要10多個(gè)精確操作才能完成。目前還不能完全替代人工,更適合作為輔助工具使用。不過它具備學(xué)習(xí)能力,隨著訓(xùn)練數(shù)據(jù)的增加和算法的改進(jìn),成功率會(huì)繼續(xù)提升。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-