av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="4dgzb"></blockquote>

<table id="4dgzb"><strong id="4dgzb"></strong></table>

<center id="4dgzb"><video id="4dgzb"><nav id="4dgzb"></nav></video></center>

<ruby id="4dgzb"><video id="4dgzb"><strong id="4dgzb"></strong></video></ruby>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

南加州大學(xué)和Salesforce聯(lián)手推出CoAct-1：讓電腦助手不再只會(huì)點(diǎn)擊鼠標(biāo)，還能寫代碼干活

人工智能多智能體系統(tǒng)計(jì)算機(jī)自動(dòng)化

南加州大學(xué)和Salesforce聯(lián)手推出CoAct-1：讓電腦助手不再只會(huì)點(diǎn)擊鼠標(biāo)，還能寫代碼干活

作者：科技行者

2025-08-13 09:23

分享至：

南加州大學(xué)和Salesforce聯(lián)合推出CoAct-1多智能體系統(tǒng)，通過結(jié)合傳統(tǒng)界面操作與代碼執(zhí)行能力，實(shí)現(xiàn)了計(jì)算機(jī)任務(wù)自動(dòng)化的重大突破。該系統(tǒng)在OSWorld基準(zhǔn)測(cè)試中達(dá)到60.76%的成功率，平均完成任務(wù)步數(shù)減少至10.15步，顯著優(yōu)于現(xiàn)有方法，為人機(jī)交互帶來新范式。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-13 09:23 ? 科技行者

這項(xiàng)由南加州大學(xué)的宋林鑫等研究者與Salesforce研究團(tuán)隊(duì)合作完成的研究發(fā)表于2025年8月，詳細(xì)介紹了一種革命性的計(jì)算機(jī)操作助手系統(tǒng)。有興趣深入了解的讀者可以通過論文網(wǎng)址https://linxins.net/coact/訪問完整研究內(nèi)容。

想象一下，你有一個(gè)超級(jí)聰明的助手，不僅能像人類一樣操作電腦界面，還能直接寫程序來完成任務(wù)。這就是CoAct-1的魅力所在。傳統(tǒng)的電腦助手就像一個(gè)只會(huì)用鼠標(biāo)點(diǎn)擊的新手，遇到復(fù)雜任務(wù)時(shí)經(jīng)常手忙腳亂，而CoAct-1就像一個(gè)既會(huì)用圖形界面又會(huì)編程的高手，能夠選擇最合適的方式來解決問題。

這項(xiàng)研究的意義遠(yuǎn)不止技術(shù)突破。在日常辦公中，我們經(jīng)常需要進(jìn)行大量重復(fù)性操作，比如整理文件、處理數(shù)據(jù)表格、批量修改圖片等。這些任務(wù)用傳統(tǒng)的點(diǎn)擊方式需要很多步驟，容易出錯(cuò)，而CoAct-1能夠智能選擇是用界面操作還是寫代碼，大大提高效率和準(zhǔn)確性。研究團(tuán)隊(duì)在OSWorld這個(gè)權(quán)威測(cè)試平臺(tái)上驗(yàn)證了系統(tǒng)性能，結(jié)果顯示CoAct-1達(dá)到了60.76%的成功率，遠(yuǎn)超之前的最佳記錄，同時(shí)將平均完成任務(wù)的步驟數(shù)從15步減少到僅10.15步。

這種混合式的工作方式就像一個(gè)經(jīng)驗(yàn)豐富的工匠，既知道什么時(shí)候該用精細(xì)的手工操作，什么時(shí)候該使用自動(dòng)化工具。當(dāng)面對(duì)需要精確視覺判斷的任務(wù)時(shí)，系統(tǒng)會(huì)選擇傳統(tǒng)的界面操作；當(dāng)遇到大量數(shù)據(jù)處理或文件管理任務(wù)時(shí)，系統(tǒng)會(huì)編寫程序來快速完成。這種智能選擇機(jī)制讓計(jì)算機(jī)助手變得更加實(shí)用和可靠。

一、CoAct-1的核心創(chuàng)新：三個(gè)專業(yè)助手的完美配合

CoAct-1的設(shè)計(jì)理念就像組建一個(gè)高效的工作團(tuán)隊(duì)，每個(gè)成員都有自己的專長，通過協(xié)作來完成復(fù)雜任務(wù)。這個(gè)團(tuán)隊(duì)由三個(gè)關(guān)鍵角色組成，它們各司其職又密切配合。

首先是指揮官角色，在系統(tǒng)中被稱為"編排者"（Orchestrator）。這個(gè)角色就像項(xiàng)目經(jīng)理一樣，負(fù)責(zé)理解用戶的需求，將復(fù)雜的任務(wù)分解成更小的子任務(wù)，然后決定每個(gè)子任務(wù)應(yīng)該交給誰來完成。編排者不能直接操作電腦，但它能夠全局把握任務(wù)進(jìn)展，根據(jù)當(dāng)前情況做出最佳的任務(wù)分配決策。這就像一個(gè)經(jīng)驗(yàn)豐富的主廚，知道什么時(shí)候該用平底鍋，什么時(shí)候該用烤箱，從不直接動(dòng)手烹飪，但能確保整道菜完美呈現(xiàn)。

第二個(gè)角色是程序員助手（Programmer），這是CoAct-1的核心創(chuàng)新之一。傳統(tǒng)的電腦助手只會(huì)點(diǎn)擊和輸入，而程序員助手能夠編寫Python和Bash腳本來直接與操作系統(tǒng)交互。當(dāng)編排者將任務(wù)分配給程序員助手時(shí)，它會(huì)開始一個(gè)獨(dú)立的對(duì)話過程，與代碼解釋器進(jìn)行多輪交互。程序員助手會(huì)根據(jù)任務(wù)需求編寫代碼，然后將代碼發(fā)送給操作系統(tǒng)執(zhí)行，獲得執(zhí)行結(jié)果后還能根據(jù)反饋進(jìn)行代碼調(diào)整和改進(jìn)。這個(gè)過程就像一個(gè)專業(yè)的程序員在工作，能夠處理文件管理、數(shù)據(jù)處理、系統(tǒng)配置等復(fù)雜任務(wù)。

第三個(gè)角色是界面操作員（GUI Operator），負(fù)責(zé)處理需要視覺判斷和精確操作的任務(wù)。當(dāng)編排者認(rèn)為某個(gè)子任務(wù)更適合通過圖形界面完成時(shí)，就會(huì)將任務(wù)交給界面操作員。這個(gè)助手能夠理解屏幕上的各種元素，進(jìn)行鼠標(biāo)移動(dòng)、點(diǎn)擊、鍵盤輸入等操作。界面操作員就像一個(gè)熟練的電腦用戶，能夠準(zhǔn)確識(shí)別按鈕、菜單和輸入框，完成各種界面交互任務(wù)。

這三個(gè)角色之間的配合機(jī)制非常精妙。編排者會(huì)根據(jù)任務(wù)的性質(zhì)和復(fù)雜程度來決定分配策略。對(duì)于需要大量重復(fù)操作的任務(wù)，比如批量重命名文件或處理數(shù)據(jù)表格，編排者會(huì)優(yōu)先選擇程序員助手，因?yàn)榇a執(zhí)行速度快且不容易出錯(cuò)。對(duì)于需要精確視覺判斷的任務(wù)，比如在復(fù)雜界面中找到特定按鈕或處理圖像編輯，編排者會(huì)選擇界面操作員。

更重要的是，這個(gè)系統(tǒng)具有很強(qiáng)的適應(yīng)性。每次子任務(wù)完成后，執(zhí)行者會(huì)向編排者匯報(bào)結(jié)果和當(dāng)前系統(tǒng)狀態(tài)。程序員助手會(huì)提供一個(gè)簡(jiǎn)潔的任務(wù)總結(jié)，而界面操作員會(huì)返回操作結(jié)果和屏幕截圖。編排者基于這些信息來判斷整體任務(wù)是否完成，或者需要繼續(xù)分配新的子任務(wù)。這種反饋機(jī)制確保了系統(tǒng)能夠動(dòng)態(tài)調(diào)整策略，應(yīng)對(duì)各種突發(fā)情況。

二、突破傳統(tǒng)界面操作的局限性

傳統(tǒng)的電腦助手就像一個(gè)只會(huì)按圖索驥的新手，必須嚴(yán)格按照視覺界面的布局來操作。這種方式在處理復(fù)雜任務(wù)時(shí)會(huì)遇到很多問題，CoAct-1的設(shè)計(jì)正是為了解決這些根本性局限。

考慮一個(gè)典型的辦公場(chǎng)景：你需要在一個(gè)包含多個(gè)工作表的Excel文件中找到特定數(shù)據(jù)，根據(jù)復(fù)雜條件進(jìn)行篩選，復(fù)制結(jié)果，然后保存為新的CSV文件。傳統(tǒng)助手需要進(jìn)行大量的點(diǎn)擊操作：打開文件，切換工作表，設(shè)置篩選條件，選擇數(shù)據(jù)范圍，復(fù)制內(nèi)容，創(chuàng)建新文件，粘貼數(shù)據(jù)，選擇保存格式，指定文件位置等等。每一步都需要精確的視覺定位和操作，任何一個(gè)環(huán)節(jié)出錯(cuò)都可能導(dǎo)致整個(gè)任務(wù)失敗。

這種方式的問題在于累積錯(cuò)誤概率。每次鼠標(biāo)點(diǎn)擊都有一定的失誤可能，界面元素的識(shí)別也可能出現(xiàn)偏差，特別是在復(fù)雜的軟件界面中，按鈕和菜單項(xiàng)往往外觀相似，很容易混淆。隨著操作步驟的增加，整體成功率會(huì)快速下降。這就像走鋼絲一樣，路徑越長，掉下去的風(fēng)險(xiǎn)就越高。

CoAct-1的程序化方法則完全不同。對(duì)于上述任務(wù)，程序員助手可能會(huì)編寫一個(gè)簡(jiǎn)單的Python腳本，直接讀取Excel文件，應(yīng)用篩選條件，提取數(shù)據(jù)并保存為CSV格式。整個(gè)過程只需要幾行代碼，執(zhí)行時(shí)間很短，而且結(jié)果完全可預(yù)測(cè)。這就像使用專業(yè)工具而不是手工操作，效率和準(zhǔn)確性都大大提升。

另一個(gè)典型例子是文件管理任務(wù)。假設(shè)你需要在復(fù)雜的目錄結(jié)構(gòu)中找到所有圖片文件，將它們調(diào)整為特定尺寸，然后打包壓縮。傳統(tǒng)方式需要打開文件管理器，逐個(gè)目錄瀏覽，手動(dòng)選擇圖片文件，使用圖像編輯軟件批量處理，最后創(chuàng)建壓縮包。這個(gè)過程不僅繁瑣，還容易遺漏文件或操作錯(cuò)誤。

程序員助手則可以編寫一個(gè)腳本，自動(dòng)遍歷目錄結(jié)構(gòu)，識(shí)別圖片文件，調(diào)用圖像處理庫進(jìn)行尺寸調(diào)整，最后創(chuàng)建壓縮包。整個(gè)過程一氣呵成，不會(huì)有遺漏，也不會(huì)有操作錯(cuò)誤。更重要的是，這種方法具有很好的重復(fù)性，同樣的腳本可以應(yīng)用到類似的任務(wù)中。

然而，CoAct-1并沒有完全拋棄界面操作。在某些情況下，圖形界面仍然是最佳選擇。比如處理需要實(shí)時(shí)視覺反饋的任務(wù)，或者與專門設(shè)計(jì)的圖形化工具交互時(shí)，界面操作員仍然發(fā)揮重要作用。關(guān)鍵在于系統(tǒng)能夠智能選擇最適合的方法，而不是盲目堅(jiān)持某一種方式。

這種混合策略的優(yōu)勢(shì)在實(shí)驗(yàn)結(jié)果中得到了充分體現(xiàn)。在OSWorld基準(zhǔn)測(cè)試中，CoAct-1在操作系統(tǒng)級(jí)任務(wù)中達(dá)到了79.16%的成功率，在多應(yīng)用協(xié)同任務(wù)中達(dá)到43.73%，在電子郵件處理任務(wù)中達(dá)到80.00%。這些數(shù)據(jù)表明，程序化方法在適合的場(chǎng)景中能夠顯著提升任務(wù)完成率。

三、實(shí)驗(yàn)驗(yàn)證：在真實(shí)環(huán)境中的卓越表現(xiàn)

為了驗(yàn)證CoAct-1的實(shí)際效果，研究團(tuán)隊(duì)選擇了OSWorld這個(gè)業(yè)界公認(rèn)的權(quán)威測(cè)試平臺(tái)。OSWorld就像一個(gè)專門為電腦助手設(shè)計(jì)的"駕照考試場(chǎng)"，包含369個(gè)不同難度和類型的任務(wù)，涵蓋了日常辦公中可能遇到的各種情況。

這個(gè)測(cè)試平臺(tái)的設(shè)計(jì)非常貼近真實(shí)使用場(chǎng)景。每個(gè)測(cè)試任務(wù)都從一個(gè)確定的系統(tǒng)狀態(tài)開始，就像給每個(gè)考生提供相同的起始條件。任務(wù)描述使用自然語言，模擬用戶的真實(shí)需求，比如"將圖片調(diào)整為512×512像素并導(dǎo)出為PNG格式"這樣的指令。更重要的是，系統(tǒng)使用規(guī)則化的評(píng)估器來判斷任務(wù)是否成功完成，確保評(píng)分的客觀性和一致性。

在與當(dāng)前最先進(jìn)系統(tǒng)的對(duì)比中，CoAct-1展現(xiàn)出了明顯的優(yōu)勢(shì)。在100步限制的測(cè)試中，CoAct-1達(dá)到了59.93%的成功率，而之前的最佳系統(tǒng)GTA-1只有53.10%。更令人印象深刻的是，在更寬松的步數(shù)限制下，CoAct-1的成功率進(jìn)一步提升到60.76%，創(chuàng)造了新的紀(jì)錄。

這種性能提升在不同類型的任務(wù)中表現(xiàn)各異，這恰好驗(yàn)證了混合策略的有效性。在LibreOffice Calc電子表格任務(wù)中，CoAct-1的成功率達(dá)到70.21%，遠(yuǎn)超GTA-1的59.57%。在多應(yīng)用協(xié)同任務(wù)中，性能提升更加顯著，從GTA-1的38.34%躍升到CoAct-1的47.88%。這些結(jié)果表明，程序化方法在數(shù)據(jù)處理和跨應(yīng)用操作方面具有顯著優(yōu)勢(shì)。

特別值得注意的是效率方面的改進(jìn)。CoAct-1完成任務(wù)的平均步數(shù)僅為10.15步，相比GTA-1的15.22步減少了約33%。這種效率提升不僅意味著更快的任務(wù)完成速度，也大大降低了出錯(cuò)的可能性。因?yàn)槊繙p少一個(gè)操作步驟，就減少了一次可能的失誤機(jī)會(huì)。

研究團(tuán)隊(duì)還深入分析了不同領(lǐng)域任務(wù)中代碼使用的情況。結(jié)果顯示，在LibreOffice Calc、多應(yīng)用任務(wù)和操作系統(tǒng)級(jí)任務(wù)中，大部分成功案例都使用了編程方法。這說明對(duì)于涉及數(shù)據(jù)處理、文件操作和系統(tǒng)配置的任務(wù)，代碼執(zhí)行確實(shí)比界面操作更加可靠和高效。

然而，CoAct-1的成功并不意味著完全拋棄界面操作。在某些類型的任務(wù)中，比如圖像編輯軟件GIMP的使用，界面操作仍然占據(jù)重要地位。這證明了系統(tǒng)設(shè)計(jì)的合理性：不是簡(jiǎn)單地用一種方法替代另一種，而是根據(jù)任務(wù)特點(diǎn)選擇最合適的方法。

實(shí)驗(yàn)中還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：任務(wù)失敗率與所需步驟數(shù)呈正相關(guān)關(guān)系。步驟越多的任務(wù)，失敗的可能性就越大。這從另一個(gè)角度證實(shí)了CoAct-1設(shè)計(jì)理念的正確性：通過減少操作步驟來提高整體成功率。

研究團(tuán)隊(duì)進(jìn)一步測(cè)試了不同模型組合對(duì)系統(tǒng)性能的影響。結(jié)果顯示，使用更強(qiáng)大的模型作為編排者和程序員助手能夠顯著提升整體性能。當(dāng)使用OpenAI的o3模型作為編排者，o4-mini模型作為程序員助手時(shí)，系統(tǒng)達(dá)到了最佳的60.76%成功率。這表明系統(tǒng)的性能上限還有進(jìn)一步提升的空間。

四、實(shí)際應(yīng)用中的挑戰(zhàn)與解決方案

盡管CoAct-1在測(cè)試中表現(xiàn)優(yōu)異，但研究團(tuán)隊(duì)也誠實(shí)地分析了系統(tǒng)在實(shí)際應(yīng)用中可能遇到的挑戰(zhàn)。這些挑戰(zhàn)主要集中在兩個(gè)方面：高層次查詢的理解和模糊指令的處理。

高層次查詢的挑戰(zhàn)就像讓助手理解含蓄的暗示。比如用戶說"請(qǐng)幫我修改VSCode設(shè)置，讓我在調(diào)試時(shí)光標(biāo)能保持在調(diào)試控制臺(tái)，而不是自動(dòng)跳回編輯器"。這個(gè)請(qǐng)求看起來很具體，但實(shí)際上需要助手理解幾個(gè)隱含的概念：調(diào)試過程、光標(biāo)焦點(diǎn)、界面切換等。更困難的是，助手需要將"調(diào)試"概念與"斷點(diǎn)"設(shè)置聯(lián)系起來，找到正確的配置項(xiàng)"focusEditorOnBrake"。

在這個(gè)案例中，編排者將任務(wù)分配給了程序員助手，程序員助手嘗試通過搜索"debug"和"console"關(guān)鍵詞來找到相關(guān)設(shè)置。然而，它沒能建立起調(diào)試和斷點(diǎn)之間的概念聯(lián)系，最終沒有找到正確的配置項(xiàng)。這個(gè)失敗案例揭示了當(dāng)前AI系統(tǒng)在概念推理方面的局限性。

類似的情況在人類交流中也經(jīng)常出現(xiàn)。當(dāng)我們說"把空調(diào)調(diào)涼快點(diǎn)"時(shí)，熟悉我們習(xí)慣的人知道這意味著降低溫度設(shè)定值，而不是增加風(fēng)速或改變模式。但對(duì)于不了解背景的人來說，這個(gè)指令可能有多種理解方式。CoAct-1面臨的正是這樣的挑戰(zhàn)：如何在缺乏充分背景信息的情況下正確理解用戶意圖。

模糊指令的處理則是另一類挑戰(zhàn)。用戶說"請(qǐng)幫我修改VSCode設(shè)置，隱藏資源管理器視圖中所有的'__pycache__'文件夾"。這個(gè)指令本身是明確的，但存在歧義：是修改工作區(qū)設(shè)置還是全局用戶設(shè)置？程序員助手成功識(shí)別了需要修改設(shè)置文件，但錯(cuò)誤地選擇了工作區(qū)設(shè)置而不是全局設(shè)置，導(dǎo)致任務(wù)失敗。

這種歧義在日常交流中非常常見。當(dāng)朋友說"幫我買點(diǎn)水果"時(shí)，我們可能需要詢問買什么種類、多少數(shù)量、預(yù)算多少等具體信息。但在人機(jī)交互中，用戶往往期望系統(tǒng)能夠智能推測(cè)這些細(xì)節(jié)，或者至少能夠選擇最合理的默認(rèn)選項(xiàng)。

為了應(yīng)對(duì)這些挑戰(zhàn)，研究團(tuán)隊(duì)提出了幾個(gè)改進(jìn)方向。首先是增強(qiáng)系統(tǒng)的概念推理能力，讓它能夠建立更豐富的概念關(guān)聯(lián)。比如在處理開發(fā)環(huán)境設(shè)置時(shí)，系統(tǒng)應(yīng)該了解調(diào)試、斷點(diǎn)、編輯器焦點(diǎn)之間的關(guān)系。其次是改進(jìn)歧義處理機(jī)制，當(dāng)遇到模糊指令時(shí)，系統(tǒng)應(yīng)該能夠識(shí)別歧義點(diǎn)并選擇最合理的解釋，或者主動(dòng)向用戶詢問澄清。

研究團(tuán)隊(duì)還注意到，不同類型的任務(wù)對(duì)這兩種挑戰(zhàn)的敏感性不同。涉及專業(yè)領(lǐng)域知識(shí)的任務(wù)更容易遇到概念理解問題，而日常辦公任務(wù)更多面臨指令歧義的挑戰(zhàn)。這個(gè)觀察為系統(tǒng)優(yōu)化提供了有價(jià)值的方向：可以針對(duì)不同任務(wù)類型開發(fā)專門的處理策略。

盡管存在這些挑戰(zhàn)，CoAct-1在大多數(shù)測(cè)試案例中的成功表現(xiàn)表明，混合策略的基本思路是正確的。系統(tǒng)的失敗往往不是因?yàn)檫x擇了錯(cuò)誤的執(zhí)行方式（界面操作vs編程），而是因?yàn)閷?duì)任務(wù)需求的理解不夠準(zhǔn)確。這說明未來的改進(jìn)重點(diǎn)應(yīng)該放在提升任務(wù)理解和意圖識(shí)別能力上。

五、技術(shù)架構(gòu)的精巧設(shè)計(jì)

CoAct-1的技術(shù)實(shí)現(xiàn)就像精密手表的內(nèi)部結(jié)構(gòu)，每個(gè)組件都有明確的功能，同時(shí)又完美協(xié)調(diào)運(yùn)作。整個(gè)系統(tǒng)基于AG2框架構(gòu)建，這是一個(gè)專門為多智能體協(xié)作設(shè)計(jì)的平臺(tái)，為不同角色之間的通信和協(xié)調(diào)提供了穩(wěn)定的基礎(chǔ)。

系統(tǒng)的內(nèi)存管理機(jī)制特別值得關(guān)注。每個(gè)智能體都維護(hù)著自己的對(duì)話歷史，就像每個(gè)專家都有自己的工作筆記。編排者保存著所有任務(wù)分配和執(zhí)行結(jié)果的記錄，程序員助手記錄著代碼編寫和調(diào)試的完整過程，界面操作員則保留著屏幕操作的歷史。這種分布式內(nèi)存設(shè)計(jì)確保了每個(gè)智能體都能專注于自己的職責(zé)，同時(shí)避免了信息混亂。

更巧妙的是系統(tǒng)的內(nèi)存清理機(jī)制。每當(dāng)一個(gè)子任務(wù)完成后，程序員助手和界面操作員的對(duì)話歷史會(huì)被清空，讓它們能夠以全新的狀態(tài)接受下一個(gè)任務(wù)。這就像專業(yè)工人完成一道工序后清理工作臺(tái)，為下一道工序做準(zhǔn)備。這種設(shè)計(jì)避免了歷史信息的干擾，確保每個(gè)子任務(wù)都能得到專注的處理。

系統(tǒng)的通信機(jī)制也經(jīng)過精心設(shè)計(jì)。當(dāng)程序員助手完成任務(wù)時(shí)，會(huì)生成一個(gè)簡(jiǎn)潔的總結(jié)報(bào)告給編排者，而不是原始的技術(shù)細(xì)節(jié)。這就像項(xiàng)目團(tuán)隊(duì)中，技術(shù)專家向項(xiàng)目經(jīng)理匯報(bào)時(shí)會(huì)使用管理語言而不是技術(shù)術(shù)語。這種分層通信確保了不同角色之間能夠有效交流，同時(shí)避免了信息過載。

研究團(tuán)隊(duì)在模型選擇上也進(jìn)行了仔細(xì)的考量。編排者使用OpenAI的o3模型，這是一個(gè)在推理和規(guī)劃方面表現(xiàn)優(yōu)秀的模型，能夠準(zhǔn)確理解復(fù)雜任務(wù)并做出合理的分解決策。程序員助手使用o4-mini模型，在代碼生成方面有著出色的表現(xiàn)，同時(shí)保持了良好的成本效益平衡。界面操作員則使用專門為計(jì)算機(jī)操作優(yōu)化的computer-use-preview模型，這個(gè)模型在視覺理解和界面交互方面有著特殊的優(yōu)勢(shì)。

系統(tǒng)還實(shí)現(xiàn)了靈活的參數(shù)配置。程序員助手最多可以進(jìn)行20輪代碼調(diào)試，界面操作員最多執(zhí)行25個(gè)操作步驟，編排者最多進(jìn)行15輪任務(wù)分配。這些限制既確保了系統(tǒng)不會(huì)陷入無限循環(huán)，又為復(fù)雜任務(wù)留出了足夠的操作空間。理論上，系統(tǒng)的最大步數(shù)上限是375步，但實(shí)際使用中很少接近這個(gè)極限。

代碼執(zhí)行環(huán)境的設(shè)計(jì)也體現(xiàn)了實(shí)用性考慮。系統(tǒng)支持Python和Bash腳本執(zhí)行，這兩種語言覆蓋了大部分系統(tǒng)操作和數(shù)據(jù)處理需求。代碼執(zhí)行采用遠(yuǎn)程服務(wù)器模式，既保證了安全性，又提供了充足的計(jì)算資源。執(zhí)行結(jié)果會(huì)實(shí)時(shí)返回給程序員助手，支持錯(cuò)誤診斷和代碼修正。

特別值得一提的是系統(tǒng)的容錯(cuò)設(shè)計(jì)。當(dāng)代碼執(zhí)行出現(xiàn)錯(cuò)誤時(shí)，程序員助手不會(huì)簡(jiǎn)單地放棄，而是會(huì)分析錯(cuò)誤信息并嘗試修正代碼。這種多輪調(diào)試機(jī)制大大提高了代碼執(zhí)行的成功率。同樣，當(dāng)界面操作遇到困難時(shí)，操作員也會(huì)嘗試不同的方法來完成任務(wù)。

系統(tǒng)的可擴(kuò)展性設(shè)計(jì)為未來的功能擴(kuò)展留下了空間。新的智能體類型可以很容易地加入到系統(tǒng)中，比如專門處理數(shù)據(jù)庫操作的智能體或?qū)ｉT處理網(wǎng)絡(luò)請(qǐng)求的智能體。編排者的決策邏輯也可以根據(jù)新的智能體類型進(jìn)行相應(yīng)調(diào)整。

六、突破性成果帶來的深遠(yuǎn)影響

CoAct-1的成功不僅僅是技術(shù)指標(biāo)上的突破，更代表了人機(jī)交互方式的根本性變革。這種變革的影響將逐漸滲透到我們工作和生活的各個(gè)方面。

在辦公自動(dòng)化領(lǐng)域，CoAct-1展示了一種全新的可能性。傳統(tǒng)的辦公自動(dòng)化工具通常需要用戶學(xué)習(xí)復(fù)雜的配置方法，或者局限于預(yù)設(shè)的功能模板。而CoAct-1能夠理解自然語言描述的任務(wù)需求，自動(dòng)選擇最佳的執(zhí)行方式。這意味著普通用戶無需掌握編程技能，就能享受到程序化處理的高效和準(zhǔn)確性。

這種能力對(duì)中小企業(yè)特別有意義。很多中小企業(yè)缺乏專業(yè)的IT人員，但又有大量重復(fù)性的辦公任務(wù)需要處理。CoAct-1這樣的系統(tǒng)能夠充當(dāng)虛擬的IT助手，幫助這些企業(yè)實(shí)現(xiàn)辦公流程的自動(dòng)化，提高工作效率，降低運(yùn)營成本。

在教育領(lǐng)域，CoAct-1也顯示出巨大的潛力。學(xué)生可以通過自然語言與系統(tǒng)交互，完成各種學(xué)習(xí)任務(wù)。比如整理研究資料、生成學(xué)習(xí)報(bào)告、處理實(shí)驗(yàn)數(shù)據(jù)等。系統(tǒng)不僅能完成具體的任務(wù)，還能通過執(zhí)行過程展示問題解決的思路和方法，具有很強(qiáng)的教學(xué)價(jià)值。

更重要的是，CoAct-1代表了AI系統(tǒng)從單一模態(tài)向多模態(tài)融合的重要轉(zhuǎn)變。傳統(tǒng)的AI系統(tǒng)要么專注于語言理解，要么專注于視覺識(shí)別，要么專注于代碼生成。CoAct-1成功地將這些能力整合在一個(gè)統(tǒng)一的框架中，根據(jù)任務(wù)需求動(dòng)態(tài)選擇合適的能力組合。這種設(shè)計(jì)思路為未來的AI系統(tǒng)發(fā)展提供了重要的參考。

從技術(shù)發(fā)展的角度來看，CoAct-1驗(yàn)證了多智能體協(xié)作的有效性。與試圖構(gòu)建一個(gè)"萬能"AI系統(tǒng)相比，讓多個(gè)專門化的AI系統(tǒng)協(xié)作可能是一個(gè)更現(xiàn)實(shí)和更有效的路徑。這種思路符合人類團(tuán)隊(duì)協(xié)作的模式，也為AI系統(tǒng)的可擴(kuò)展性和可維護(hù)性提供了更好的解決方案。

系統(tǒng)的高效性也具有重要的環(huán)境意義。通過減少任務(wù)完成所需的步驟，CoAct-1不僅節(jié)省了時(shí)間，也減少了計(jì)算資源的消耗。在大規(guī)模應(yīng)用時(shí)，這種效率提升能夠顯著降低能源消耗和碳排放，符合可持續(xù)發(fā)展的要求。

然而，這種技術(shù)進(jìn)步也帶來了新的思考。隨著AI系統(tǒng)變得越來越能干，我們需要重新考慮人機(jī)分工的邊界。CoAct-1能夠完成很多原本需要專業(yè)技能的任務(wù)，這可能會(huì)改變某些職業(yè)的技能要求。同時(shí)，我們也需要思考如何確保AI系統(tǒng)的決策過程是透明和可控的，特別是在處理重要或敏感任務(wù)時(shí)。

安全性是另一個(gè)需要持續(xù)關(guān)注的問題。CoAct-1具有執(zhí)行代碼的能力，這在提供強(qiáng)大功能的同時(shí)，也帶來了潛在的安全風(fēng)險(xiǎn)。研究團(tuán)隊(duì)采用了遠(yuǎn)程執(zhí)行環(huán)境來隔離風(fēng)險(xiǎn)，但在實(shí)際部署時(shí)還需要更完善的安全措施和監(jiān)控機(jī)制。

展望未來，CoAct-1的成功為更多領(lǐng)域的應(yīng)用打開了大門。在智能家居、工業(yè)自動(dòng)化、醫(yī)療健康等領(lǐng)域，都可能出現(xiàn)類似的混合智能系統(tǒng)。這些系統(tǒng)將能夠更自然地理解人類需求，更靈活地選擇執(zhí)行方式，更可靠地完成復(fù)雜任務(wù)。

說到底，CoAct-1最大的價(jià)值在于它證明了一個(gè)重要觀點(diǎn)：AI系統(tǒng)不需要追求單一維度的極致表現(xiàn)，而應(yīng)該追求在實(shí)際應(yīng)用中的綜合效果。通過巧妙地結(jié)合不同方法的優(yōu)勢(shì)，我們能夠創(chuàng)造出更實(shí)用、更可靠的AI助手。這種設(shè)計(jì)哲學(xué)將繼續(xù)指導(dǎo)未來AI系統(tǒng)的發(fā)展方向，讓人工智能真正成為提升人類生活質(zhì)量的強(qiáng)大工具。

對(duì)于普通用戶而言，CoAct-1代表的不僅僅是一個(gè)更好的工具，更是一種全新的工作方式。我們不再需要遷就工具的限制，而是可以用自然的方式表達(dá)需求，讓智能系統(tǒng)來選擇最佳的實(shí)現(xiàn)方法。這種改變將讓技術(shù)真正服務(wù)于人，而不是讓人適應(yīng)技術(shù)。隨著這類系統(tǒng)的不斷完善和普及，我們有理由相信，未來的人機(jī)協(xié)作將變得更加自然、高效和愉快。

Q&A

Q1：CoAct-1與傳統(tǒng)電腦助手有什么區(qū)別？

A：傳統(tǒng)電腦助手只能通過點(diǎn)擊鼠標(biāo)和鍵盤輸入來操作界面，就像只會(huì)按圖索驥的新手。而CoAct-1不僅能進(jìn)行界面操作，還能編寫Python和Bash代碼直接與系統(tǒng)交互，就像一個(gè)既會(huì)用圖形界面又會(huì)編程的高手，能根據(jù)任務(wù)特點(diǎn)選擇最合適的方法。

Q2：CoAct-1在實(shí)際測(cè)試中表現(xiàn)如何？

A：在OSWorld權(quán)威測(cè)試平臺(tái)上，CoAct-1創(chuàng)造了60.76%的新紀(jì)錄，遠(yuǎn)超之前最佳系統(tǒng)GTA-1的53.10%。更重要的是，CoAct-1完成任務(wù)的平均步數(shù)僅為10.15步，比GTA-1的15.22步減少了約33%，既提高了成功率又提升了效率。

Q3：CoAct-1如何決定用界面操作還是編寫代碼？

A：CoAct-1有一個(gè)"編排者"角色充當(dāng)智能指揮官，它會(huì)分析任務(wù)特點(diǎn)并做出決策。對(duì)于數(shù)據(jù)處理、文件管理等重復(fù)性任務(wù)，會(huì)選擇編程方式；對(duì)于需要精確視覺判斷的任務(wù)，會(huì)選擇界面操作。這種智能選擇讓系統(tǒng)在不同場(chǎng)景下都能發(fā)揮最佳效果。

人工智能多智能體系統(tǒng)計(jì)算機(jī)自動(dòng)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<tr id="urgs0"></tr>