av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="psqza"></cite>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

上海AI實(shí)驗(yàn)室讓AI學(xué)會(huì)"自己造工具"：PyVision框架讓機(jī)器視覺推理變得像人類一樣靈活

人工智能動(dòng)態(tài)工具生成視覺推理

上海AI實(shí)驗(yàn)室讓AI學(xué)會(huì)"自己造工具"：PyVision框架讓機(jī)器視覺推理變得像人類一樣靈活

作者：科技行者

2025-07-18 16:06

分享至：

PyVision是上海AI實(shí)驗(yàn)室開發(fā)的革命性視覺推理框架，讓AI系統(tǒng)能夠根據(jù)具體問題動(dòng)態(tài)創(chuàng)造Python工具，而非依賴預(yù)設(shè)工具集。通過多輪交互機(jī)制，PyVision在多項(xiàng)基準(zhǔn)測(cè)試中實(shí)現(xiàn)顯著性能提升，其中在符號(hào)視覺任務(wù)上提升達(dá)31.1%。該框架展現(xiàn)了從"工具使用者"到"工具創(chuàng)造者"的AI能力躍遷，為通用人工智能的發(fā)展開辟了新路徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-18 16:06 ? 科技行者

這項(xiàng)由上海AI實(shí)驗(yàn)室的趙詩田、張浩泉、林紹亨、李明等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年1月，論文標(biāo)題為"PyVision: Agentic Vision with Dynamic Tooling"。有興趣深入了解的讀者可以通過arXiv:2507.07998v1訪問完整論文。

當(dāng)我們面對(duì)一幅復(fù)雜的圖像時(shí)，比如一張包含視覺錯(cuò)覺的圖片，人類會(huì)怎么做？我們可能會(huì)瞇起眼睛仔細(xì)觀察，用手遮住一部分圖像，或者換個(gè)角度來看。我們會(huì)根據(jù)具體問題靈活調(diào)整自己的觀察方法。但現(xiàn)在的AI系統(tǒng)在處理視覺問題時(shí)，就像被困在一個(gè)固定的觀察模式中——它們只能用預(yù)先設(shè)定好的方法來分析圖像，無法根據(jù)問題的特殊性創(chuàng)造新的解決方案。

上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)意識(shí)到了這個(gè)問題，他們開發(fā)了一個(gè)名為PyVision的框架，讓AI系統(tǒng)能夠像人類一樣，根據(jù)遇到的視覺問題動(dòng)態(tài)地"發(fā)明"和使用工具。這就像給AI配備了一個(gè)無限的工具箱，而且AI還能根據(jù)需要現(xiàn)場(chǎng)制造新工具。

這個(gè)研究的核心創(chuàng)新在于，PyVision不是簡(jiǎn)單地給AI提供一堆預(yù)制的工具，而是讓AI學(xué)會(huì)用Python編程語言來動(dòng)態(tài)創(chuàng)造解決問題的工具。當(dāng)AI遇到一個(gè)新的視覺問題時(shí)，它會(huì)思考："我需要什么樣的工具來解決這個(gè)問題？"然后現(xiàn)場(chǎng)編寫代碼，創(chuàng)造出專門針對(duì)這個(gè)問題的工具。

一、讓AI學(xué)會(huì)"臨時(shí)抱佛腳"：動(dòng)態(tài)工具生成的魔力

傳統(tǒng)的AI視覺系統(tǒng)就像一個(gè)只會(huì)按照固定菜譜做菜的廚師。無論面對(duì)什么食材，它都只能用同樣的方法處理。而PyVision就像培養(yǎng)了一個(gè)真正的大廚，能夠根據(jù)手頭的食材和客人的需求，臨時(shí)創(chuàng)造出新的烹飪方法。

研究團(tuán)隊(duì)通過一個(gè)經(jīng)典的視覺錯(cuò)覺例子展示了這種能力的強(qiáng)大之處。在著名的艾賓浩斯錯(cuò)覺中，兩個(gè)大小相同的圓形在不同背景下看起來大小不同。但研究人員設(shè)計(jì)了一個(gè)"反向"版本——實(shí)際上兩個(gè)圓形大小不同，但人類的直覺會(huì)認(rèn)為它們大小相同。

當(dāng)面對(duì)這個(gè)問題時(shí)，傳統(tǒng)的AI系統(tǒng)會(huì)依賴它存儲(chǔ)的關(guān)于艾賓浩斯錯(cuò)覺的知識(shí)，錯(cuò)誤地回答"兩個(gè)圓形大小相同"。但PyVision的反應(yīng)完全不同。它首先分析了問題的本質(zhì)，然后決定："我需要實(shí)際測(cè)量這兩個(gè)圓形的大小，而不是依賴視覺印象。"

接下來，PyVision開始了它的"工具制造"過程。它首先編寫代碼來獲取圖像中橙色圓形的RGB值，然后創(chuàng)建一個(gè)遮罩來分離這些圓形區(qū)域，最后計(jì)算每個(gè)圓形的實(shí)際像素面積。通過這種方法，它發(fā)現(xiàn)左邊的圓形面積是124,805個(gè)像素，而右邊的圓形面積是12,824個(gè)像素——右邊的圓形明顯更大。

這個(gè)過程就像一個(gè)偵探在破案時(shí)根據(jù)具體線索制造專門的調(diào)查工具。PyVision沒有被預(yù)設(shè)的"知識(shí)"束縛，而是根據(jù)問題的具體需求，動(dòng)態(tài)創(chuàng)造出最合適的分析工具。

二、工具分類學(xué)：AI的"瑞士軍刀"有多少種功能

研究團(tuán)隊(duì)發(fā)現(xiàn)，PyVision在處理不同類型的視覺問題時(shí)，會(huì)自發(fā)地創(chuàng)造出不同類別的工具。他們將這些工具分為幾個(gè)主要類別，就像給一個(gè)萬能工具箱分類整理一樣。

基礎(chǔ)圖像處理工具就像是AI的"基本生活技能"。當(dāng)面對(duì)一張模糊或歪斜的圖像時(shí)，PyVision會(huì)創(chuàng)造裁剪工具來聚焦關(guān)鍵區(qū)域，旋轉(zhuǎn)工具來糾正圖像方向，或者增強(qiáng)對(duì)比度工具來讓細(xì)節(jié)更加清晰。這就像我們?cè)诳匆槐緯鴷r(shí)會(huì)調(diào)整燈光、換個(gè)角度或者戴上眼鏡一樣自然。

在一個(gè)真實(shí)案例中，PyVision需要從一張復(fù)雜的街景照片中識(shí)別一個(gè)小小的廣告牌上的文字。它先是嘗試在整張圖片中尋找廣告牌，但發(fā)現(xiàn)目標(biāo)太小了。于是它創(chuàng)造了一個(gè)精確的裁剪工具，經(jīng)過三次迭代調(diào)整，最終準(zhǔn)確地定位到了廣告牌的位置，并成功讀取了上面的"YOGA"字樣，正確識(shí)別出這是一家瑜伽工作室。

高級(jí)圖像處理工具則像是AI的"專業(yè)技能"。當(dāng)需要分析醫(yī)學(xué)圖像時(shí)，PyVision會(huì)創(chuàng)造分割工具來分離不同的解剖結(jié)構(gòu)，或者目標(biāo)檢測(cè)工具來定位特定的病變區(qū)域。甚至，它還能創(chuàng)造OCR（光學(xué)字符識(shí)別）工具，在不依賴外部服務(wù)的情況下，自己讀取圖像中的文字內(nèi)容。

視覺提示和繪圖工具體現(xiàn)了AI的"創(chuàng)造性思維"。當(dāng)需要計(jì)算圖像中物體的數(shù)量時(shí)，PyVision會(huì)像人類一樣，在每個(gè)物體上畫上標(biāo)記來避免重復(fù)計(jì)算。在解決幾何問題時(shí)，它會(huì)畫出輔助線來幫助自己理解空間關(guān)系。這就像我們?cè)诮鈹?shù)學(xué)題時(shí)會(huì)在草稿紙上畫圖一樣。

數(shù)值和統(tǒng)計(jì)分析工具則是AI的"理性分析能力"。當(dāng)需要比較顏色深淺或者分析圖像的整體特征時(shí)，PyVision會(huì)創(chuàng)造專門的統(tǒng)計(jì)工具，繪制像素強(qiáng)度直方圖，或者計(jì)算特定區(qū)域的平均顏色值。

三、多輪對(duì)話：AI與工具的"深度交流"

PyVision的另一個(gè)創(chuàng)新之處在于它的多輪交互能力。這就像是AI和它的工具之間進(jìn)行了一場(chǎng)深度對(duì)話，每一輪對(duì)話都讓AI對(duì)問題有了更深入的理解。

這個(gè)過程可以用修理工解決復(fù)雜機(jī)械問題來類比。一個(gè)經(jīng)驗(yàn)豐富的修理工不會(huì)一開始就知道確切的問題所在，而是會(huì)逐步診斷：先聽聲音，再看外觀，然后拆開檢查，根據(jù)每一步的發(fā)現(xiàn)來決定下一步的行動(dòng)。

在PyVision的系統(tǒng)中，這種交互被精心設(shè)計(jì)。每當(dāng)AI生成一段代碼并執(zhí)行后，執(zhí)行結(jié)果會(huì)反饋給AI，讓它能夠基于這些新信息調(diào)整下一步的策略。整個(gè)過程是完全自主的，AI會(huì)自己決定何時(shí)停止這個(gè)循環(huán)，給出最終答案。

為了保證這種交互的穩(wěn)定性，研究團(tuán)隊(duì)設(shè)計(jì)了幾個(gè)關(guān)鍵機(jī)制。首先是進(jìn)程隔離，確保每次代碼執(zhí)行都在獨(dú)立的環(huán)境中進(jìn)行，即使出現(xiàn)錯(cuò)誤也不會(huì)影響整個(gè)系統(tǒng)。其次是跨輪次持久化，讓AI能夠在多個(gè)回合中累積和使用之前的分析結(jié)果。最后是安全的輸入輸出機(jī)制，確保AI和Python執(zhí)行環(huán)境之間的交流是可控和安全的。

四、實(shí)戰(zhàn)表現(xiàn)：從數(shù)學(xué)到醫(yī)學(xué)的全面突破

研究團(tuán)隊(duì)在多個(gè)不同領(lǐng)域的基準(zhǔn)測(cè)試中驗(yàn)證了PyVision的能力，結(jié)果令人印象深刻。在數(shù)學(xué)視覺推理任務(wù)中，PyVision讓GPT-4.1的表現(xiàn)提升了7.8%，讓Claude-4.0-Sonnet的表現(xiàn)提升了高達(dá)31.1%。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)PyVision似乎能夠"放大"不同AI模型的固有優(yōu)勢(shì)。當(dāng)與擅長感知任務(wù)的模型結(jié)合時(shí)，PyVision在視覺搜索任務(wù)上表現(xiàn)更出色；當(dāng)與擅長抽象推理的模型結(jié)合時(shí)，它在邏輯推理任務(wù)上提升更明顯。這就像是給不同類型的運(yùn)動(dòng)員配備了最適合他們的訓(xùn)練工具。

在醫(yī)學(xué)圖像分析任務(wù)中，PyVision展現(xiàn)了令人驚訝的適應(yīng)能力。面對(duì)一張視網(wǎng)膜眼底圖像，它需要判斷是否存在異常。PyVision首先創(chuàng)造了一個(gè)對(duì)比度增強(qiáng)工具，使用直方圖均衡化技術(shù)來突出圖像中的細(xì)微特征。然后它創(chuàng)造了一個(gè)灰度強(qiáng)度直方圖分析工具，檢查是否存在異常的亮度分布。通過這種多層次的分析，它正確地判斷出圖像顯示的是一個(gè)健康的視網(wǎng)膜。

在遙感圖像分析中，PyVision展現(xiàn)了另一種適應(yīng)策略。當(dāng)需要計(jì)算衛(wèi)星圖像中的建筑物數(shù)量時(shí)，它創(chuàng)造了一個(gè)完整的圖像分割工具鏈：先將圖像轉(zhuǎn)換為灰度，然后使用大津閾值法進(jìn)行二值化，接著應(yīng)用形態(tài)學(xué)操作來清理噪聲，最后通過連通組件分析來計(jì)算建筑物的數(shù)量。

五、工具使用模式：不同任務(wù)的"專屬配方"

通過分析PyVision在不同類型任務(wù)中的表現(xiàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的模式。在數(shù)學(xué)和邏輯相關(guān)的任務(wù)中，PyVision更傾向于創(chuàng)造數(shù)值分析工具和視覺繪圖工具。這就像數(shù)學(xué)家在解題時(shí)會(huì)畫圖表和進(jìn)行計(jì)算一樣。

在符號(hào)視覺任務(wù)中，比如那些需要解析抽象圖形的問題，PyVision主要依賴高級(jí)圖像處理工具。在精細(xì)的視覺搜索任務(wù)中，裁剪工具占據(jù)了絕對(duì)主導(dǎo)地位，超過83%的工具使用都是為了將注意力集中在圖像的特定區(qū)域。

在醫(yī)學(xué)圖像分析中，對(duì)比度增強(qiáng)工具被頻繁使用，這反映了醫(yī)學(xué)圖像分析對(duì)細(xì)微視覺特征的高度敏感性。而在遙感圖像分析中，分割工具更為常見，這是因?yàn)檫b感圖像通常需要分離大規(guī)模場(chǎng)景中的不同對(duì)象。

這種適應(yīng)性使得PyVision能夠像變色龍一樣，根據(jù)不同環(huán)境調(diào)整自己的策略。它不是一個(gè)萬能但平庸的工具，而是一個(gè)能夠在每個(gè)特定領(lǐng)域都表現(xiàn)出色的專家系統(tǒng)。

六、技術(shù)架構(gòu)：構(gòu)建AI的"創(chuàng)造力引擎"

PyVision的技術(shù)架構(gòu)看起來簡(jiǎn)單，但實(shí)際上包含了許多精妙的設(shè)計(jì)。整個(gè)系統(tǒng)的核心是一個(gè)精心設(shè)計(jì)的系統(tǒng)提示，它就像是給AI制定的"行為準(zhǔn)則"。這個(gè)提示告訴AI如何訪問輸入圖像，如何構(gòu)造代碼，如何返回結(jié)果，以及如何判斷任務(wù)完成。

系統(tǒng)的多輪交互機(jī)制確保了AI能夠進(jìn)行"深度思考"。每一輪交互都包含代碼生成、執(zhí)行、結(jié)果反饋和策略調(diào)整四個(gè)步驟。這個(gè)過程會(huì)持續(xù)進(jìn)行，直到AI認(rèn)為問題已經(jīng)得到充分解決。

為了保證系統(tǒng)的穩(wěn)定性，研究團(tuán)隊(duì)實(shí)現(xiàn)了三個(gè)關(guān)鍵的技術(shù)保障。進(jìn)程隔離確保每次代碼執(zhí)行都在獨(dú)立的子進(jìn)程中進(jìn)行，避免了系統(tǒng)崩潰的風(fēng)險(xiǎn)?？巛喆纬志没孉I能夠在多個(gè)回合中累積知識(shí)和結(jié)果。安全的輸入輸出機(jī)制通過結(jié)構(gòu)化的變量傳遞來避免文件系統(tǒng)依賴。

七、深度案例分析：AI如何"現(xiàn)場(chǎng)發(fā)揮"

為了更好地理解PyVision的工作原理，讓我們?cè)敿?xì)分析幾個(gè)典型案例。

在一個(gè)"找不同"的任務(wù)中，PyVision需要識(shí)別兩張相似圖片之間的所有差異。它的第一步是將輸入圖像分割成左右兩半，然后計(jì)算兩半之間的絕對(duì)像素差異。這個(gè)過程就像用放大鏡逐像素比較兩張照片。

接下來，PyVision生成了一個(gè)差異可視化圖，將所有不同的區(qū)域高亮顯示出來?；谶@個(gè)差異圖，它系統(tǒng)地分析了每個(gè)高亮區(qū)域，最終識(shí)別出了諸如"右圖中有蝴蝶而左圖沒有"、"左圖中有蘑菇而右圖沒有"等具體差異。

在一個(gè)視頻理解任務(wù)中，PyVision需要計(jì)算房間中桌子的數(shù)量。面對(duì)一個(gè)包含多個(gè)視頻幀的輸入，它沒有試圖分析每一幀，而是聰明地選擇了幾個(gè)關(guān)鍵幀，每個(gè)幀都展示了不同類型的桌子。通過分析這些關(guān)鍵幀，它識(shí)別出了圓形餐桌、玻璃茶幾、電視柜和沙發(fā)邊幾等四種不同的桌子。

八、性能深度解析：數(shù)字背后的故事

PyVision的性能提升不僅僅是簡(jiǎn)單的數(shù)字增長，而是反映了AI系統(tǒng)能力的質(zhì)的飛躍。在V*基準(zhǔn)測(cè)試中，PyVision-GPT-4.1相比基礎(chǔ)模型提升了7.8%，這個(gè)提升主要來自于動(dòng)態(tài)裁剪工具的使用。通過精確定位圖像中的關(guān)鍵區(qū)域，AI能夠避免被無關(guān)信息干擾，專注于解決問題的核心部分。

在VLMsAreBlind-mini測(cè)試中，PyVision-Claude-4.0-Sonnet的表現(xiàn)提升了31.1%，這是一個(gè)相當(dāng)顯著的改進(jìn)。這個(gè)測(cè)試主要評(píng)估AI對(duì)符號(hào)視覺的理解能力，而PyVision通過創(chuàng)造專門的圖像分析工具，大大提高了對(duì)抽象視覺模式的識(shí)別準(zhǔn)確率。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：PyVision似乎能夠"放大"不同AI模型的固有優(yōu)勢(shì)。當(dāng)與感知能力強(qiáng)的模型結(jié)合時(shí)，它在視覺任務(wù)上的提升更明顯；當(dāng)與推理能力強(qiáng)的模型結(jié)合時(shí)，它在邏輯任務(wù)上的改進(jìn)更顯著。這就像是給每個(gè)運(yùn)動(dòng)員配備了最適合他們的專業(yè)裝備。

九、工具使用頻率分析：AI的"偏好模式"

通過分析PyVision在不同任務(wù)中的代碼生成行為，研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的模式。Claude-4.0-Sonnet比GPT-4.1更傾向于生成代碼，在許多任務(wù)中達(dá)到了100%的代碼覆蓋率。這反映了不同AI模型在處理復(fù)雜任務(wù)時(shí)的不同策略偏好。

在數(shù)學(xué)相關(guān)任務(wù)中，PyVision平均每個(gè)查詢生成2-3個(gè)代碼塊，這些代碼塊通常用于數(shù)值計(jì)算、幾何分析和結(jié)果驗(yàn)證。在視覺搜索任務(wù)中，代碼塊數(shù)量相對(duì)較少，但每個(gè)代碼塊都專注于精確的區(qū)域定位和特征提取。

在醫(yī)學(xué)圖像分析任務(wù)中，PyVision展現(xiàn)了更復(fù)雜的多輪交互模式，平均每個(gè)查詢需要3-4輪交互才能完成。這反映了醫(yī)學(xué)圖像分析的復(fù)雜性，需要多層次的特征提取和分析。

十、與傳統(tǒng)方法的根本區(qū)別：靜態(tài)vs動(dòng)態(tài)的革命

傳統(tǒng)的AI視覺系統(tǒng)就像是一個(gè)裝滿了各種預(yù)制工具的工具箱。當(dāng)遇到新問題時(shí)，系統(tǒng)只能從現(xiàn)有的工具中選擇一個(gè)最接近的來使用。這種方法的局限性在于，預(yù)制工具的數(shù)量和類型是有限的，而現(xiàn)實(shí)世界的問題卻是無窮無盡的。

PyVision的革命性在于它完全改變了這種模式。它不是提供預(yù)制工具，而是提供了制造工具的能力。這就像是給AI配備了一個(gè)完整的工廠，而不僅僅是一個(gè)工具箱。當(dāng)遇到新問題時(shí)，AI可以根據(jù)問題的具體需求，現(xiàn)場(chǎng)設(shè)計(jì)和制造最適合的工具。

這種差異帶來了幾個(gè)重要的優(yōu)勢(shì)。首先是靈活性，AI不再受限于預(yù)定義的工具集，可以處理各種各樣的新問題。其次是精確性，每個(gè)工具都是為特定問題量身定制的，因此效果更好。最后是可擴(kuò)展性，隨著AI編程能力的提升，它能夠創(chuàng)造的工具類型也會(huì)不斷增加。

十一、實(shí)際應(yīng)用前景：從實(shí)驗(yàn)室到現(xiàn)實(shí)世界

PyVision的技術(shù)不僅在學(xué)術(shù)研究中表現(xiàn)出色，更重要的是它為實(shí)際應(yīng)用開辟了新的可能性。在醫(yī)療診斷領(lǐng)域，PyVision可以根據(jù)不同類型的醫(yī)學(xué)圖像動(dòng)態(tài)創(chuàng)造分析工具，幫助醫(yī)生更準(zhǔn)確地識(shí)別病變。在自動(dòng)駕駛領(lǐng)域，它可以根據(jù)不同的交通場(chǎng)景創(chuàng)造適合的視覺分析工具，提高道路安全性。

在工業(yè)質(zhì)檢中，PyVision可以為不同產(chǎn)品的質(zhì)量控制創(chuàng)造專門的檢測(cè)工具，無需為每種產(chǎn)品單獨(dú)開發(fā)系統(tǒng)。在安防監(jiān)控中，它可以根據(jù)不同的監(jiān)控場(chǎng)景動(dòng)態(tài)調(diào)整分析策略，提高異常檢測(cè)的準(zhǔn)確性。

在教育領(lǐng)域，PyVision可以為不同學(xué)科的視覺內(nèi)容創(chuàng)造專門的分析工具，幫助開發(fā)更智能的教學(xué)輔助系統(tǒng)。在娛樂產(chǎn)業(yè)中，它可以為游戲和影視制作提供更智能的內(nèi)容分析和處理能力。

十二、技術(shù)挑戰(zhàn)與解決方案：克服"成長中的煩惱"

盡管PyVision展現(xiàn)了強(qiáng)大的能力，但研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前面臨的挑戰(zhàn)。首先是代碼生成的穩(wěn)定性問題。雖然現(xiàn)代AI模型的編程能力已經(jīng)相當(dāng)強(qiáng)大，但生成的代碼偶爾仍可能出現(xiàn)錯(cuò)誤。研究團(tuán)隊(duì)通過進(jìn)程隔離和錯(cuò)誤恢復(fù)機(jī)制來解決這個(gè)問題。

其次是計(jì)算效率問題。動(dòng)態(tài)工具生成需要更多的計(jì)算資源，特別是在多輪交互的情況下。研究團(tuán)隊(duì)正在探索更高效的代碼生成和執(zhí)行策略，以降低計(jì)算成本。

第三是安全性問題。由于系統(tǒng)會(huì)執(zhí)行動(dòng)態(tài)生成的代碼，必須確保這些代碼不會(huì)對(duì)系統(tǒng)造成損害。研究團(tuán)隊(duì)通過沙箱執(zhí)行環(huán)境和代碼審查機(jī)制來保障系統(tǒng)安全。

最后是可解釋性問題。雖然PyVision的推理過程相對(duì)透明，但復(fù)雜的代碼生成過程可能仍然難以理解。研究團(tuán)隊(duì)正在開發(fā)更好的可視化工具，幫助用戶理解AI的決策過程。

PyVision代表了AI視覺推理領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。它不僅提高了AI系統(tǒng)的性能，更重要的是改變了我們對(duì)AI能力的認(rèn)知。傳統(tǒng)的AI系統(tǒng)只能使用工具，而PyVision讓AI學(xué)會(huì)了制造工具。這種從"使用者"到"創(chuàng)造者"的轉(zhuǎn)變，可能會(huì)引發(fā)整個(gè)AI領(lǐng)域的深刻變革。

正如研究團(tuán)隊(duì)所說，這項(xiàng)工作的真正價(jià)值不僅在于性能的提升，更在于它指向了一個(gè)更廣闊的未來：AI系統(tǒng)不再是被動(dòng)的工具執(zhí)行者，而是能夠主動(dòng)適應(yīng)和創(chuàng)造的智能體。當(dāng)AI學(xué)會(huì)了根據(jù)問題的需要?jiǎng)討B(tài)創(chuàng)造解決方案時(shí)，我們就真正邁向了通用人工智能的大門。

這項(xiàng)研究也提醒我們，AI的發(fā)展不應(yīng)該僅僅追求更大的模型或更多的數(shù)據(jù)，而應(yīng)該關(guān)注如何讓AI更好地適應(yīng)和解決現(xiàn)實(shí)世界的復(fù)雜問題。PyVision的成功證明，通過巧妙的系統(tǒng)設(shè)計(jì)和創(chuàng)新的交互機(jī)制，我們可以讓AI系統(tǒng)展現(xiàn)出前所未有的靈活性和創(chuàng)造力。

隨著這項(xiàng)技術(shù)的不斷發(fā)展和完善，我們有理由相信，未來的AI系統(tǒng)將能夠處理更加復(fù)雜和多樣化的視覺任務(wù)，為人類社會(huì)帶來更大的價(jià)值。從醫(yī)療診斷到自動(dòng)駕駛，從工業(yè)控制到娛樂創(chuàng)作，PyVision開啟的這扇"動(dòng)態(tài)工具生成"的大門，將為AI應(yīng)用的廣闊前景鋪平道路。

Q&A

Q1：PyVision是什么？它和普通的AI視覺系統(tǒng)有什么區(qū)別？ A：PyVision是上海AI實(shí)驗(yàn)室開發(fā)的一個(gè)AI視覺推理框架，最大的特點(diǎn)是能夠動(dòng)態(tài)創(chuàng)造工具。普通AI系統(tǒng)只能使用預(yù)設(shè)的工具，就像只會(huì)按固定菜譜做菜的廚師；而PyVision可以根據(jù)具體問題現(xiàn)場(chǎng)編寫Python代碼，創(chuàng)造專門的分析工具，就像經(jīng)驗(yàn)豐富的大廚能根據(jù)食材臨時(shí)發(fā)明新菜譜一樣。

Q2：PyVision的性能提升有多大？在哪些任務(wù)上表現(xiàn)最好？ A：在不同任務(wù)上，PyVision的性能提升從幾個(gè)百分點(diǎn)到30%以上不等。在視覺搜索任務(wù)V*上，它讓GPT-4.1提升了7.8%；在符號(hào)視覺任務(wù)VLMsAreBlind上，它讓Claude-4.0-Sonnet提升了31.1%。它在需要精確分析和多步推理的任務(wù)上表現(xiàn)最為突出，比如醫(yī)學(xué)圖像分析、數(shù)學(xué)視覺推理等。

Q3：PyVision會(huì)不會(huì)取代現(xiàn)有的AI視覺系統(tǒng)？普通人能用到嗎？ A：PyVision不是完全取代現(xiàn)有系統(tǒng)，而是提供了一種新的解決思路。它目前主要用于研究和高端應(yīng)用，但其核心思想——讓AI根據(jù)問題動(dòng)態(tài)創(chuàng)造工具——可能會(huì)逐步融入到各種AI產(chǎn)品中。未來普通人可能會(huì)在醫(yī)療診斷、教育輔助、圖像處理等應(yīng)用中間接受益于這項(xiàng)技術(shù)。

人工智能動(dòng)態(tài)工具生成視覺推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<thead id="qqlku"><tfoot id="qqlku"></tfoot></thead>

<legend id="qqlku"><track id="qqlku"><menuitem id="qqlku"></menuitem></track></legend>

<del id="qqlku"><ul id="qqlku"></ul></del>