av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 上海AI實(shí)驗(yàn)室讓AI學(xué)會(huì)玩轉(zhuǎn)全新軟件,不再需要人類手把手教學(xué)

上海AI實(shí)驗(yàn)室讓AI學(xué)會(huì)玩轉(zhuǎn)全新軟件,不再需要人類手把手教學(xué)

2025-08-11 14:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 14:29 ? 科技行者

這項(xiàng)由上海交通大學(xué)的孫澤藝、上海人工智能實(shí)驗(yàn)室的王嘉琦等研究團(tuán)隊(duì)完成的突破性研究發(fā)表于2025年8月,論文題為《SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience》。有興趣深入了解的讀者可以通過項(xiàng)目地址https://github.com/SunzeY/SEAgent獲取更多詳細(xì)信息。

你是否曾經(jīng)想過,如果有一天AI助手能夠像人類一樣,面對(duì)一個(gè)全新的軟件就能自己摸索著學(xué)會(huì)使用,那該有多方便?當(dāng)我們拿到一個(gè)從未接觸過的軟件時(shí),通常會(huì)先點(diǎn)點(diǎn)這里、試試那里,通過不斷的嘗試和犯錯(cuò)來逐漸掌握它的功能?,F(xiàn)在,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為SEAgent的AI系統(tǒng),它就像一個(gè)聰明的學(xué)生,能夠在沒有老師指導(dǎo)的情況下,通過自己的探索和實(shí)踐來掌握新軟件的使用方法。

這項(xiàng)研究的核心創(chuàng)新在于讓AI能夠完全自主地學(xué)習(xí)使用它從未見過的軟件。過去,訓(xùn)練一個(gè)AI助手使用軟件就像教小孩子學(xué)鋼琴一樣,需要人類老師一步步演示每個(gè)動(dòng)作,記錄下每次按鍵和鼠標(biāo)點(diǎn)擊,然后讓AI反復(fù)模仿這些動(dòng)作。這種方法不僅需要大量的人工標(biāo)注工作,而且當(dāng)遇到新軟件時(shí),AI就像遇到新曲子的學(xué)生一樣完全不知所措。

研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像是要培養(yǎng)一個(gè)能夠自學(xué)成才的學(xué)生。當(dāng)這個(gè)學(xué)生面對(duì)一門全新的課程時(shí),他需要具備三種核心能力:首先是能夠理解當(dāng)前的學(xué)習(xí)狀態(tài)和進(jìn)展,就像學(xué)生需要知道自己掌握了什么、還缺什么;其次是能夠?yàn)樽约涸O(shè)計(jì)合理的學(xué)習(xí)計(jì)劃,從簡單到復(fù)雜循序漸進(jìn);最后是能夠從自己的成功和失敗中汲取經(jīng)驗(yàn),不斷改進(jìn)學(xué)習(xí)方法。

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)完整的自主學(xué)習(xí)系統(tǒng),這個(gè)系統(tǒng)就像一個(gè)智能的私人教練。這個(gè)教練包含三個(gè)關(guān)鍵組件:首先是一個(gè)"狀態(tài)評(píng)估師",它就像一面鏡子,能夠準(zhǔn)確地告訴AI當(dāng)前的操作是否正確,哪一步出了問題;其次是一個(gè)"課程設(shè)計(jì)師",它就像一個(gè)經(jīng)驗(yàn)豐富的老師,能夠根據(jù)AI的當(dāng)前能力水平設(shè)計(jì)合適難度的練習(xí)題;最后是AI學(xué)習(xí)者本身,它通過不斷的實(shí)踐和反思來提升自己的能力。

研究團(tuán)隊(duì)特別設(shè)計(jì)了一個(gè)"世界狀態(tài)模型"來充當(dāng)AI的眼睛和大腦。這個(gè)模型就像一個(gè)細(xì)心的觀察者,它不僅能夠看懂屏幕上發(fā)生的一切變化,還能判斷每一個(gè)操作步驟是否朝著正確的方向前進(jìn)。當(dāng)AI點(diǎn)擊了錯(cuò)誤的按鈕或者在某個(gè)地方卡住時(shí),這個(gè)模型能夠及時(shí)發(fā)現(xiàn)并指出問題所在,就像一個(gè)耐心的導(dǎo)師在學(xué)生犯錯(cuò)時(shí)給出及時(shí)的糾正。

更有趣的是,這個(gè)系統(tǒng)還具備了一種"課程生成"能力。就像一個(gè)好老師會(huì)根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度調(diào)整教學(xué)內(nèi)容一樣,系統(tǒng)中的課程生成器能夠觀察AI在使用軟件時(shí)的表現(xiàn),然后自動(dòng)設(shè)計(jì)出更有針對(duì)性的練習(xí)任務(wù)。比如,當(dāng)AI成功學(xué)會(huì)了如何在圖像編輯軟件中畫一個(gè)矩形后,課程生成器就會(huì)提出更有挑戰(zhàn)性的任務(wù),比如畫一個(gè)帶有特定顏色和透明度的矩形。

在學(xué)習(xí)方法上,研究團(tuán)隊(duì)采用了一種類似于"獎(jiǎng)懲結(jié)合"的訓(xùn)練策略。當(dāng)AI做對(duì)了某個(gè)操作時(shí),系統(tǒng)會(huì)給予積極的強(qiáng)化,鼓勵(lì)A(yù)I繼續(xù)這種正確的行為模式;而當(dāng)AI犯錯(cuò)時(shí),系統(tǒng)不是簡單地懲罰,而是通過"對(duì)抗性模仿"的方式,讓AI學(xué)會(huì)避免這些錯(cuò)誤的操作模式。這就像是在訓(xùn)練一個(gè)運(yùn)動(dòng)員,不僅要表揚(yáng)他們的正確動(dòng)作,還要幫助他們改正錯(cuò)誤的動(dòng)作習(xí)慣。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:直接訓(xùn)練一個(gè)能夠處理多種不同軟件的通用AI助手,效果往往不如先分別訓(xùn)練多個(gè)專門的AI助手,然后再將這些專家的知識(shí)整合起來。這就像是培養(yǎng)一個(gè)全能型人才,往往不如先讓他在不同領(lǐng)域都成為專家,然后再融會(huì)貫通。因此,他們設(shè)計(jì)了一個(gè)"專家到通才"的訓(xùn)練策略,先讓AI在每個(gè)軟件上都成為專家,然后將這些專業(yè)知識(shí)整合成一個(gè)更強(qiáng)大的通用AI助手。

為了驗(yàn)證這套方法的有效性,研究團(tuán)隊(duì)在五種不同的專業(yè)軟件上進(jìn)行了測試,包括代碼編輯器VSCode、圖像處理軟件GIMP、演示軟件LibreOffice Impress、媒體播放器VLC和文檔處理軟件Writer。這些軟件就像是五個(gè)不同的考場,每個(gè)都有自己獨(dú)特的操作邏輯和界面設(shè)計(jì)。

測試結(jié)果令人印象深刻。在完全沒有人工標(biāo)注數(shù)據(jù)的情況下,SEAgent的成功率從初始的11.3%提升到了34.5%,這相當(dāng)于在短時(shí)間內(nèi)將一個(gè)初學(xué)者培養(yǎng)成了一個(gè)相當(dāng)熟練的用戶。更重要的是,通過"專家到通才"的訓(xùn)練策略得到的通用AI助手,其性能甚至超過了各個(gè)專門領(lǐng)域的專家AI的組合表現(xiàn),這證明了知識(shí)整合的威力。

在訓(xùn)練過程中,AI展現(xiàn)出了類似人類學(xué)習(xí)的漸進(jìn)式進(jìn)步模式。在第一階段,AI學(xué)會(huì)了最基本的操作,比如點(diǎn)擊菜單、輸入文字等簡單任務(wù);到了第二階段,AI開始嘗試更復(fù)雜的操作組合,比如在演示軟件中插入形狀并設(shè)置顏色;在第三階段,AI甚至能夠處理涉及多個(gè)步驟的復(fù)雜任務(wù),比如創(chuàng)建帶有特殊效果的圖形元素。這種學(xué)習(xí)軌跡與人類掌握新軟件的過程remarkably相似。

研究團(tuán)隊(duì)在設(shè)計(jì)評(píng)估系統(tǒng)時(shí)特別注重準(zhǔn)確性和實(shí)時(shí)性。他們開發(fā)的"世界狀態(tài)模型"不僅能夠準(zhǔn)確判斷任務(wù)的完成情況,還能提供逐步的反饋信息。與傳統(tǒng)的只看最終結(jié)果的評(píng)估方法不同,這個(gè)模型能夠分析整個(gè)操作過程,識(shí)別出哪些步驟是正確的,哪些是多余的,哪些是錯(cuò)誤的。這種細(xì)致的分析能力使得AI能夠從每一次嘗試中學(xué)到更多有用的信息。

為了確保研究的客觀性,團(tuán)隊(duì)還建立了一個(gè)專門的基準(zhǔn)測試平臺(tái)。他們在AgentRewardBench和OSWorld等標(biāo)準(zhǔn)測試集上評(píng)估了系統(tǒng)的性能,結(jié)果顯示SEAgent在多項(xiàng)指標(biāo)上都達(dá)到了業(yè)界領(lǐng)先水平。特別值得一提的是,他們開發(fā)的世界狀態(tài)模型在判斷準(zhǔn)確性方面,已經(jīng)接近了商業(yè)化的GPT-4o模型的水平,但卻是完全開源的解決方案。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面的突破。在實(shí)際應(yīng)用中,這意味著未來的AI助手將不再受限于預(yù)先訓(xùn)練的軟件類型,而是能夠快速適應(yīng)各種新出現(xiàn)的應(yīng)用程序。這就像是擁有了一個(gè)萬能的數(shù)字助手,無論你使用什么新軟件,它都能很快上手幫你完成各種任務(wù)。

研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的局限性。首先,系統(tǒng)目前仍然依賴于AI評(píng)判員來提供可靠的反饋信號(hào),而不是直接從環(huán)境中獲取獎(jiǎng)勵(lì)信號(hào)。這就像是學(xué)習(xí)過程中仍然需要一個(gè)觀察者來判斷對(duì)錯(cuò),而不是完全靠自己感受。其次,雖然測試的軟件相對(duì)復(fù)雜,但任務(wù)本身仍然相對(duì)簡單,通常人類專家只需要不到20步就能完成,如何讓AI掌握需要數(shù)小時(shí)才能完成的復(fù)雜工作流程,仍然是一個(gè)有待解決的挑戰(zhàn)。

從技術(shù)發(fā)展的角度來看,這項(xiàng)研究為AI領(lǐng)域帶來了一種全新的思路。傳統(tǒng)的AI訓(xùn)練就像是填鴨式教育,需要大量的標(biāo)準(zhǔn)答案和示例;而SEAgent代表的這種自主學(xué)習(xí)方法更像是啟發(fā)式教育,通過創(chuàng)造合適的學(xué)習(xí)環(huán)境和反饋機(jī)制,讓AI自己探索和發(fā)現(xiàn)知識(shí)。這種方法不僅減少了對(duì)人工標(biāo)注數(shù)據(jù)的依賴,還能讓AI具備更強(qiáng)的適應(yīng)性和創(chuàng)新能力。

研究結(jié)果還揭示了一個(gè)重要的學(xué)習(xí)策略:專業(yè)化與通用化的有機(jī)結(jié)合。這個(gè)發(fā)現(xiàn)對(duì)于AI教育具有重要啟示意義。就像人類學(xué)習(xí)一樣,先在各個(gè)專業(yè)領(lǐng)域深入鉆研,然后再進(jìn)行跨領(lǐng)域的知識(shí)整合,往往能夠產(chǎn)生更好的效果。這種策略不僅適用于軟件操作的學(xué)習(xí),也可能對(duì)其他類型的AI學(xué)習(xí)任務(wù)具有指導(dǎo)價(jià)值。

這項(xiàng)研究的社會(huì)影響也值得關(guān)注。隨著軟件和應(yīng)用程序的快速迭代更新,傳統(tǒng)的人工標(biāo)注方法已經(jīng)難以跟上技術(shù)發(fā)展的步伐。SEAgent提供的自主學(xué)習(xí)能力,為解決這個(gè)問題開辟了新的道路。未來,當(dāng)新軟件發(fā)布時(shí),AI助手可能不再需要等待人類專家的訓(xùn)練,而是能夠自己快速學(xué)習(xí)并掌握新功能。

對(duì)于普通用戶來說,這意味著AI助手將變得更加智能和實(shí)用。你不再需要擔(dān)心AI助手是否支持某個(gè)特定的軟件,因?yàn)樗邆淞丝焖賹W(xué)習(xí)新軟件的能力。這就像是擁有了一個(gè)永遠(yuǎn)愿意學(xué)習(xí)新技能的助手,無論你的工作需求如何變化,它都能快速適應(yīng)并提供幫助。

研究團(tuán)隊(duì)選擇將SEAgent開源,這個(gè)決定體現(xiàn)了學(xué)術(shù)界推動(dòng)技術(shù)普及和創(chuàng)新的傳統(tǒng)。開源意味著全世界的研究者和開發(fā)者都可以在這個(gè)基礎(chǔ)上繼續(xù)改進(jìn)和擴(kuò)展,加速相關(guān)技術(shù)的發(fā)展和應(yīng)用。這種開放的態(tài)度也有助于建立更加透明和可信的AI系統(tǒng),讓用戶能夠更好地理解和控制AI助手的行為。

從長遠(yuǎn)來看,這項(xiàng)研究可能會(huì)推動(dòng)整個(gè)AI行業(yè)向更加自主和智能的方向發(fā)展。當(dāng)AI系統(tǒng)具備了自主學(xué)習(xí)新技能的能力后,它們將不再是被動(dòng)執(zhí)行預(yù)設(shè)程序的工具,而是能夠主動(dòng)適應(yīng)環(huán)境變化的智能伙伴。這種轉(zhuǎn)變將為人機(jī)協(xié)作開啟全新的可能性,讓AI真正成為人類創(chuàng)造力和生產(chǎn)力的放大器。

說到底,SEAgent代表的不僅僅是一個(gè)技術(shù)突破,更是AI發(fā)展理念的重要轉(zhuǎn)變。從依賴大量人工標(biāo)注的監(jiān)督學(xué)習(xí),到具備自主探索能力的體驗(yàn)式學(xué)習(xí),這個(gè)轉(zhuǎn)變讓AI更接近人類的學(xué)習(xí)方式。雖然目前還有許多挑戰(zhàn)需要克服,但這項(xiàng)研究無疑為構(gòu)建真正智能的AI助手指明了方向。對(duì)于每一個(gè)期待更智能、更有用的AI助手的人來說,SEAgent的出現(xiàn)都值得關(guān)注和期待。

Q&A

Q1:SEAgent是什么?它和普通的AI助手有什么區(qū)別?

A:SEAgent是上海人工智能實(shí)驗(yàn)室開發(fā)的自主學(xué)習(xí)型AI助手,它最大的特點(diǎn)是能夠在沒有人類教學(xué)的情況下,通過自己的探索和試錯(cuò)來學(xué)會(huì)使用全新的軟件。普通AI助手需要人類提前標(biāo)注大量示例數(shù)據(jù)才能工作,而SEAgent就像一個(gè)聰明的學(xué)生,能夠自己摸索著掌握新軟件的使用方法。

Q2:SEAgent的自主學(xué)習(xí)效果如何?能達(dá)到什么水平?

A:在測試中,SEAgent在五種專業(yè)軟件上的成功率從初始的11.3%提升到了34.5%,相當(dāng)于將一個(gè)初學(xué)者快速培養(yǎng)成熟練用戶。更重要的是,通過先分別訓(xùn)練各軟件專家再整合的策略,最終的通用AI助手性能甚至超過了各個(gè)專門領(lǐng)域?qū)<业慕M合表現(xiàn)。

Q3:SEAgent什么時(shí)候能普及應(yīng)用?普通用戶能用上嗎?

A:目前SEAgent還處于研究階段,研究團(tuán)隊(duì)已經(jīng)將其開源供其他研究者和開發(fā)者改進(jìn)。雖然還面臨一些挑戰(zhàn),比如處理更復(fù)雜的長時(shí)間工作流程,但這項(xiàng)技術(shù)為未來AI助手的發(fā)展指明了方向。預(yù)計(jì)隨著技術(shù)成熟,我們將看到更多具備自主學(xué)習(xí)能力的AI助手產(chǎn)品出現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-