av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI的眼睛不會(huì)"看"?北京大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)多模態(tài)大模型的致命視覺盲點(diǎn)

AI的眼睛不會(huì)"看"?北京大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)多模態(tài)大模型的致命視覺盲點(diǎn)

2025-07-28 15:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-28 15:31 ? 科技行者

這項(xiàng)由北京大學(xué)的高宏程、黃梓豪、徐林等多位研究者聯(lián)合中科院大學(xué)、南京大學(xué)、新加坡國立大學(xué)等七所知名院校共同完成的研究,發(fā)表于2025年7月,論文標(biāo)題為《像素、模式,但沒有詩意:像人類一樣看世界》。有興趣深入了解的讀者可以通過項(xiàng)目頁面https://TuringEyeTest.github.io訪問完整研究內(nèi)容。

當(dāng)我們看到一張圖片時(shí),大腦會(huì)在瞬間完成復(fù)雜的視覺處理過程。比如看到云朵排列成某個(gè)字母的形狀,或者在色彩斑斕的點(diǎn)陣中識(shí)別出隱藏的數(shù)字,這對人類來說輕而易舉。然而,這項(xiàng)研究卻發(fā)現(xiàn)了一個(gè)令人意外的事實(shí):那些在文本理解和邏輯推理方面表現(xiàn)卓越的多模態(tài)大語言模型,在這些看似簡單的視覺任務(wù)上卻表現(xiàn)得像"視覺盲人"一樣。

研究團(tuán)隊(duì)創(chuàng)造性地設(shè)計(jì)了一套名為"圖靈眼測試"的評估體系,就像給AI做視力檢查一樣。他們發(fā)現(xiàn),包括OpenAI的o1、Claude-4-Sonnet、Gemini 2.5 Pro在內(nèi)的15個(gè)當(dāng)前最先進(jìn)的多模態(tài)大模型,在面對人類能夠輕松識(shí)別的視覺挑戰(zhàn)時(shí),成功率幾乎為零。這個(gè)發(fā)現(xiàn)不僅顛覆了我們對AI視覺能力的認(rèn)知,更揭示了當(dāng)前人工智能發(fā)展中一個(gè)被忽視的關(guān)鍵缺陷。

這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范疇。在自動(dòng)駕駛、醫(yī)療影像診斷、安防監(jiān)控等依賴視覺理解的關(guān)鍵應(yīng)用中,AI的這種視覺局限性可能帶來嚴(yán)重后果。研究團(tuán)隊(duì)通過深入的技術(shù)分析發(fā)現(xiàn),問題的根源并非在于模型的推理能力不足,而是視覺編碼器本身存在根本性的泛化能力缺陷。這個(gè)發(fā)現(xiàn)為改進(jìn)AI視覺系統(tǒng)指明了新的方向,也為我們重新思考人工智能的發(fā)展路徑提供了重要啟示。

一、AI視覺能力的盲點(diǎn)測試:四個(gè)"簡單"卻致命的挑戰(zhàn)

要理解AI視覺能力的真實(shí)水平,研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)看似簡單卻極具挑戰(zhàn)性的測試任務(wù)。這些任務(wù)就像是專門為AI設(shè)計(jì)的"視力表",每一項(xiàng)都針對人類視覺系統(tǒng)的不同核心能力。

第一個(gè)測試叫做"隱藏文字識(shí)別",其工作原理類似于那些需要瞇起眼睛才能看清的藝術(shù)作品。研究團(tuán)隊(duì)將文字信息巧妙地融入到美麗的風(fēng)景圖片中,當(dāng)你近距離觀看時(shí),看到的是精美的建筑或自然景觀,但當(dāng)你退遠(yuǎn)一些或縮小圖像時(shí),這些景觀元素的排列就會(huì)顯現(xiàn)出清晰的英文單詞。人類可以毫不費(fèi)力地在這兩個(gè)層面之間切換視角,既能欣賞細(xì)節(jié),又能把握整體。然而,AI模型卻完全無法理解這種"整體大于部分之和"的視覺現(xiàn)象。

第二個(gè)測試是"3D字符識(shí)別",就像那些立體字謎游戲一樣。研究團(tuán)隊(duì)將普通的字母和數(shù)字扭曲成三維空間中的線框圖形,從不同角度觀察會(huì)呈現(xiàn)出不同的視覺效果。這種測試考驗(yàn)的是AI對三維空間中字符結(jié)構(gòu)的理解能力。雖然這些扭曲的字符對人類來說仍然容易識(shí)別,但AI卻完全無法將這些線條重新組合成有意義的字符。

第三個(gè)測試借鑒了經(jīng)典的"色盲檢測圖"原理,但增加了更多的干擾元素。研究團(tuán)隊(duì)創(chuàng)建了由彩色圓點(diǎn)組成的復(fù)雜圖案,其中特定顏色的圓點(diǎn)排列成字母或數(shù)字的形狀,而背景則由其他顏色的圓點(diǎn)填充。人類的視覺系統(tǒng)能夠自動(dòng)過濾掉干擾信息,專注于目標(biāo)模式,但AI卻被這些"噪音"完全迷惑了。

最后一個(gè)測試涉及中文字符的創(chuàng)意組合。研究團(tuán)隊(duì)將多個(gè)漢字的部件重新組合,創(chuàng)造出具有特定含義的復(fù)合字符,就像書法藝術(shù)中的"合體字"一樣。這些字符雖然在形式上發(fā)生了變化,但對于熟悉中文的人來說,仍然能夠理解其表達(dá)的完整概念。然而,AI卻無法理解這種創(chuàng)意性的視覺表達(dá)。

通過這四個(gè)測試,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)驚人的現(xiàn)象:即使是最先進(jìn)的AI模型,在這些任務(wù)上的成功率也幾乎為零。更令人擔(dān)憂的是,即使給AI多次嘗試的機(jī)會(huì),讓它生成32個(gè)不同的答案,成功率仍然沒有顯著提升。這表明問題不在于AI的推理過程存在隨機(jī)性錯(cuò)誤,而是在視覺理解的最初階段就出現(xiàn)了根本性的偏差。

二、深入AI大腦:視覺處理的"斷層"在哪里

為了找出AI視覺失敗的根本原因,研究團(tuán)隊(duì)采用了一種名為"Grad-CAM"的技術(shù),這就像給AI的"大腦"做核磁共振掃描一樣,能夠可視化AI在處理圖像時(shí)到底在"看"什么。

當(dāng)我們觀察AI處理隱藏文字圖像的過程時(shí),發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。AI的視覺編碼器確實(shí)在圖像的各個(gè)區(qū)域分配了注意力,但這些注意力往往集中在錯(cuò)誤的地方。就像一個(gè)人看畫時(shí)只注意到畫框的裝飾,卻忽略了畫面的主要內(nèi)容一樣,AI關(guān)注的是圖像中的物體細(xì)節(jié),而完全錯(cuò)過了這些物體排列所形成的整體模式。

在處理3D字符時(shí),AI的表現(xiàn)更加令人困惑。它似乎能夠識(shí)別出圖像中存在某種結(jié)構(gòu),但卻無法將這些三維線條重新組裝成有意義的字符。這就像看立體拼圖時(shí),能看到所有的碎片,卻無法理解它們組合后的完整圖案。

色盲測試揭示了AI另一個(gè)致命弱點(diǎn):抗干擾能力極差。人類視覺系統(tǒng)具有強(qiáng)大的"信號(hào)過濾"能力,能夠在復(fù)雜的視覺環(huán)境中迅速鎖定目標(biāo)信息。但AI卻像沒有調(diào)好頻道的收音機(jī)一樣,無法從背景噪音中提取出清晰的信號(hào)。

最令研究團(tuán)隊(duì)意外的是中文字符測試的結(jié)果。AI確實(shí)能夠識(shí)別出圖像中包含漢字組件,但它采用的是一種機(jī)械化的識(shí)別方式,就像只認(rèn)識(shí)汽車零件卻不知道如何組裝汽車一樣。它缺乏將這些組件整合成完整概念的"想象力"。

更深入的分析顯示,這個(gè)問題不僅存在于視覺編碼器中,語言處理部分也未能彌補(bǔ)這一缺陷。當(dāng)視覺信息傳遞到語言模型時(shí),錯(cuò)誤的視覺理解已經(jīng)無法被糾正。這就像翻譯一份看不清楚的文件,無論翻譯技巧多么高超,都無法得出正確的結(jié)果。

三、訓(xùn)練能否拯救AI的"視力":意外的發(fā)現(xiàn)

面對AI的視覺缺陷,研究團(tuán)隊(duì)嘗試了多種"治療"方案。他們首先測試了能否通過提供示例的方式教會(huì)AI如何處理這些視覺任務(wù),這就像給學(xué)生做題前先展示幾個(gè)標(biāo)準(zhǔn)答案一樣。

然而,結(jié)果令人失望。即使給AI提供了三個(gè)完整的示例,包括圖像和正確答案,AI的表現(xiàn)幾乎沒有任何改善。這表明AI的問題不在于缺乏相關(guān)知識(shí)或經(jīng)驗(yàn),而是在更基礎(chǔ)的視覺理解層面存在結(jié)構(gòu)性缺陷。就像一個(gè)色盲患者,無論看多少次顏色對照表,都無法突然獲得辨色能力一樣。

接下來,研究團(tuán)隊(duì)嘗試了更直接的方法:針對性訓(xùn)練。他們設(shè)計(jì)了五種不同的訓(xùn)練策略,分別針對AI系統(tǒng)的不同組件進(jìn)行優(yōu)化。這就像醫(yī)生針對不同器官開出不同的治療方案一樣。

第一種方案是對整個(gè)系統(tǒng)進(jìn)行全面訓(xùn)練,相當(dāng)于"全身治療"。第二種方案只訓(xùn)練視覺編碼器,專門修復(fù)"眼睛"的問題。第三種方案在訓(xùn)練視覺編碼器的同時(shí),也優(yōu)化連接視覺和語言部分的"橋梁"。第四種方案只訓(xùn)練語言處理部分,看看是否能通過提升"大腦"的分析能力來補(bǔ)償視覺缺陷。最后一種方案只優(yōu)化視覺和語言之間的連接部分。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)關(guān)鍵發(fā)現(xiàn):只有包含視覺編碼器訓(xùn)練的方案才能顯著改善AI的表現(xiàn)。那些只訓(xùn)練語言部分的方案幾乎沒有效果,這就像試圖通過提高翻譯水平來彌補(bǔ)原文錯(cuò)誤一樣徒勞。

更有趣的是,當(dāng)研究團(tuán)隊(duì)分析訓(xùn)練過程的損失曲線時(shí),發(fā)現(xiàn)了AI學(xué)習(xí)的一個(gè)有趣模式。在訓(xùn)練初期,AI似乎優(yōu)先調(diào)整語言處理部分的參數(shù),然后才開始優(yōu)化視覺組件。這就像學(xué)習(xí)一門新技能時(shí),我們往往先從熟悉的部分開始,然后才tackle更困難的挑戰(zhàn)。

為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)還在傳統(tǒng)的視覺問答任務(wù)上測試了相同的訓(xùn)練策略。結(jié)果顯示,在這些傳統(tǒng)任務(wù)上,所有訓(xùn)練方案的效果都差不多。這個(gè)對比實(shí)驗(yàn)證明了研究團(tuán)隊(duì)設(shè)計(jì)的測試確實(shí)捕捉到了AI視覺能力的一個(gè)獨(dú)特盲點(diǎn),而不僅僅是一般性的能力不足。

四、分辨率與視覺理解的微妙關(guān)系

在研究過程中,團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)出人意料的現(xiàn)象。當(dāng)他們調(diào)整隱藏文字圖像的分辨率時(shí),AI的表現(xiàn)發(fā)生了戲劇性的變化。

當(dāng)圖像被大幅縮小時(shí),原本復(fù)雜的場景變成了簡單的字符輪廓,AI的識(shí)別能力反而得到了顯著提升。這就像近視眼的人摘掉眼鏡后,反而能更清楚地看到遠(yuǎn)處的大標(biāo)牌一樣。這個(gè)現(xiàn)象揭示了AI視覺處理的一個(gè)根本特征:它更擅長處理簡化的、類似傳統(tǒng)OCR任務(wù)的圖像,而不是需要整體理解的復(fù)雜視覺場景。

研究團(tuán)隊(duì)進(jìn)一步比較了兩種不同的圖像處理方式:直接縮小和模糊處理。直接縮小圖像能夠顯著提升AI的表現(xiàn),但對圖像進(jìn)行模糊處理(保持原始尺寸但降低清晰度)的效果就差得多。這個(gè)差異解釋了為什么縮小圖像有效:現(xiàn)代AI視覺系統(tǒng)將圖像分割成固定大小的"補(bǔ)丁"進(jìn)行處理,縮小圖像實(shí)際上簡化了每個(gè)補(bǔ)丁的內(nèi)容,使字符特征更加突出。

這個(gè)發(fā)現(xiàn)具有重要的技術(shù)意義。它表明當(dāng)前AI視覺架構(gòu)在處理需要整體理解的任務(wù)時(shí)存在根本性局限。AI更像是一個(gè)只能看清局部細(xì)節(jié)的顯微鏡,而不是能夠把握全局的望遠(yuǎn)鏡。

五、15個(gè)頂級AI模型的集體"失明"

研究團(tuán)隊(duì)選擇了15個(gè)當(dāng)前最先進(jìn)的多模態(tài)大模型進(jìn)行測試,這些模型代表了不同的技術(shù)路線和架構(gòu)設(shè)計(jì)。測試結(jié)果呈現(xiàn)出一個(gè)令人震驚的一致性:幾乎所有模型在四個(gè)測試任務(wù)上的表現(xiàn)都糟糕透頂。

在隱藏文字識(shí)別任務(wù)上,所有15個(gè)模型的一次性成功率都是零。即使給它們32次嘗試機(jī)會(huì),最好的模型也只達(dá)到了不到1%的成功率。這就像讓15個(gè)據(jù)說"視力極佳"的人去讀同一張視力表,結(jié)果發(fā)現(xiàn)他們?nèi)伎床磺遄畲蟮淖帜浮?/p>

3D字符識(shí)別的結(jié)果同樣令人失望。所有模型都無法理解三維空間中的字符結(jié)構(gòu),成功率幾乎為零。這表明當(dāng)前的AI視覺系統(tǒng)在空間理解能力上存在根本性缺陷。

色盲測試稍微顯示了一些模型間的差異,但最好的成功率也僅有1.33%??紤]到這是一個(gè)多選題場景,這樣的表現(xiàn)實(shí)際上可能還不如隨機(jī)猜測。

中文字符組合測試顯示了相對較好的結(jié)果,部分模型達(dá)到了5%左右的成功率。但這仍然遠(yuǎn)遠(yuǎn)無法滿足實(shí)際應(yīng)用的需求。

更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同架構(gòu)的模型(統(tǒng)一多模態(tài)模型、基于API的封閉源碼模型、開源模型)都表現(xiàn)出類似的失敗模式。這表明這個(gè)問題不是特定技術(shù)路線的缺陷,而是當(dāng)前整個(gè)AI視覺領(lǐng)域的共同盲點(diǎn)。

當(dāng)研究團(tuán)隊(duì)提高生成溫度,讓AI產(chǎn)生更多樣化的答案時(shí),結(jié)果仍然沒有顯著改善。這進(jìn)一步證實(shí)了問題出在視覺理解的根本層面,而不是推理過程的隨機(jī)性不足。

六、技術(shù)解決方案的探索與啟示

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了幾個(gè)改進(jìn)AI視覺能力的潛在方向。首先是將推理能力引入視覺處理階段。目前的AI系統(tǒng)通常將視覺理解和推理嚴(yán)格分離,視覺編碼器只負(fù)責(zé)提取特征,推理完全由語言模型承擔(dān)。但人類的視覺理解過程往往伴隨著即時(shí)的推理和假設(shè)驗(yàn)證。

另一個(gè)重要方向是在像素級別和語義級別之間建立更好的對齊。當(dāng)前的視覺編碼器主要關(guān)注像素級別的特征,但人類視覺更多地基于語義理解。如何讓AI既能處理細(xì)節(jié),又能把握整體語義,是亟待解決的技術(shù)挑戰(zhàn)。

研究團(tuán)隊(duì)還建議采用類似大語言模型中強(qiáng)化學(xué)習(xí)的方法來訓(xùn)練視覺編碼器。通過不斷的試錯(cuò)和反饋,可能能夠幫助AI學(xué)會(huì)更好的視覺理解策略。

這項(xiàng)研究的意義不僅限于技術(shù)層面。它提醒我們,在急于追求AI在各種高層認(rèn)知任務(wù)上的突破的同時(shí),不能忽視這些看似基礎(chǔ)但實(shí)際上極其重要的感知能力。就像建造摩天大樓時(shí),地基的重要性往往被忽視一樣,AI的視覺"地基"可能需要更多的關(guān)注和投入。

對于普通用戶而言,這項(xiàng)研究揭示了當(dāng)前AI應(yīng)用的一個(gè)重要局限性。在依賴AI進(jìn)行圖像理解的場景中,我們需要對其能力邊界有清晰的認(rèn)識(shí),避免在關(guān)鍵應(yīng)用中過度依賴可能存在盲點(diǎn)的AI系統(tǒng)。

說到底,這項(xiàng)研究為我們呈現(xiàn)了AI發(fā)展中的一個(gè)重要啟示:真正的人工智能不僅需要強(qiáng)大的推理能力,更需要與人類相匹配的感知能力。只有當(dāng)AI能夠像人類一樣"看懂"世界時(shí),它才能真正理解和參與我們的生活。這個(gè)看似簡單的視覺理解問題,實(shí)際上可能是通向真正智能AI的關(guān)鍵一步。當(dāng)前的AI或許已經(jīng)學(xué)會(huì)了處理復(fù)雜的邏輯推理,但在最基礎(chǔ)的"看見"這件事上,它們還有很長的路要走。

這個(gè)發(fā)現(xiàn)也讓我們重新思考什么是真正的智能。也許,能夠在復(fù)雜的視覺環(huán)境中瞬間把握要點(diǎn)的能力,比解決復(fù)雜數(shù)學(xué)題的能力更能體現(xiàn)智能的本質(zhì)。畢竟,在人類進(jìn)化的歷程中,視覺理解能力遠(yuǎn)比抽象推理能力更早出現(xiàn),也更為重要。如果AI想要真正融入人類社會(huì),學(xué)會(huì)像人類一樣"看世界"可能是比學(xué)會(huì)像人類一樣"想問題"更為基礎(chǔ)和關(guān)鍵的能力。

Q&A

Q1:什么是"圖靈眼測試"?它和傳統(tǒng)的AI測試有什么不同? A:圖靈眼測試是這項(xiàng)研究創(chuàng)造的專門評估AI視覺感知能力的測試體系,包括隱藏文字識(shí)別、3D字符識(shí)別、色盲測試和中文字符組合四個(gè)任務(wù)。與傳統(tǒng)側(cè)重推理能力的AI測試不同,它專門檢驗(yàn)AI最基礎(chǔ)的"看見"和"理解"視覺信息的能力,就像給AI做視力檢查一樣。

Q2:為什么頂級AI模型在這些測試上表現(xiàn)這么差? A:研究發(fā)現(xiàn)問題出在AI的視覺編碼器上,而非推理能力。AI無法像人類一樣進(jìn)行整體性的視覺理解,它更像只能看局部細(xì)節(jié)的顯微鏡,缺乏把握全局模式的能力。即使是最先進(jìn)的模型也存在這種根本性的視覺理解缺陷,成功率幾乎為零。

Q3:這個(gè)發(fā)現(xiàn)對普通用戶使用AI有什么影響? A:這提醒我們在使用AI處理圖像相關(guān)任務(wù)時(shí)要謹(jǐn)慎,特別是在自動(dòng)駕駛、醫(yī)療診斷等關(guān)鍵應(yīng)用中。當(dāng)前AI在某些看似簡單的視覺理解上存在盲點(diǎn),過度依賴可能帶來風(fēng)險(xiǎn)。用戶需要了解AI能力邊界,在重要場景中保持人工監(jiān)督和驗(yàn)證。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-