av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 當(dāng)AI模型遇到"轉(zhuǎn)個(gè)身"的挑戰(zhàn):UNC Chapel Hill揭示多模態(tài)大語(yǔ)言模型的方向感困惑

當(dāng)AI模型遇到"轉(zhuǎn)個(gè)身"的挑戰(zhàn):UNC Chapel Hill揭示多模態(tài)大語(yǔ)言模型的方向感困惑

2025-08-27 10:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-27 10:30 ? 科技行者

這項(xiàng)由UNC Chapel Hill的Tianyi Niu、Jaemin Cho、Elias Stengel-Eskin和Mohit Bansal團(tuán)隊(duì)共同完成的研究發(fā)表于2025年8月,論文題目為"RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation"。有興趣深入了解的讀者可以通過(guò)GitHub鏈接https://github.com/tianyiniu/RotBench訪問(wèn)完整的研究代碼和數(shù)據(jù)。

想象一下,你給一個(gè)號(hào)稱(chēng)很聰明的朋友看一張倒過(guò)來(lái)的照片,問(wèn)他這張照片被轉(zhuǎn)了多少度,結(jié)果他竟然一臉茫然。這聽(tīng)起來(lái)很不可思議,但這正是目前最先進(jìn)的AI模型面臨的尷尬處境。

當(dāng)今最頂尖的多模態(tài)大語(yǔ)言模型,包括GPT-5、o3和Gemini-2.5-Pro,在處理復(fù)雜的視覺(jué)推理任務(wù)時(shí)表現(xiàn)出色,能夠分析圖像內(nèi)容、回答視覺(jué)問(wèn)題,甚至進(jìn)行圖像分割。然而,UNC Chapel Hill的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了這些AI巨頭的一個(gè)意外弱點(diǎn):它們竟然無(wú)法可靠地識(shí)別一張圖片是否被旋轉(zhuǎn)了,以及被旋轉(zhuǎn)了多少度。

這個(gè)發(fā)現(xiàn)讓人頗為意外。人類(lèi)只需要瞥一眼就能輕松判斷一張照片是正著放的、倒過(guò)來(lái)的,還是側(cè)著的。我們能夠利用圖像中的各種線索,比如人物的姿態(tài)、家具的擺放、文字的方向等等,快速準(zhǔn)確地判斷圖像的正確朝向。但對(duì)于這些在其他視覺(jué)任務(wù)上表現(xiàn)卓越的AI模型來(lái)說(shuō),這個(gè)看似簡(jiǎn)單的任務(wù)卻成了一個(gè)難以逾越的障礙。

研究團(tuán)隊(duì)為了系統(tǒng)性地測(cè)試這個(gè)問(wèn)題,專(zhuān)門(mén)創(chuàng)建了一個(gè)名為RotBench的基準(zhǔn)測(cè)試。這個(gè)測(cè)試包含了350張精心篩選的圖片,涵蓋了生活方式、肖像和風(fēng)景等不同類(lèi)型。每張圖片都被分別旋轉(zhuǎn)0度(正常方向)、90度、180度(上下顛倒)和270度,然后讓AI模型判斷圖片的旋轉(zhuǎn)角度。

有趣的是,研究結(jié)果顯示了一個(gè)明顯的模式。幾乎所有的AI模型都能夠準(zhǔn)確識(shí)別正常朝向(0度)的圖片,這并不令人意外,因?yàn)檫@些模型在訓(xùn)練時(shí)主要接觸的都是正常朝向的圖像。一些較強(qiáng)的模型也能夠相對(duì)準(zhǔn)確地識(shí)別上下顛倒(180度)的圖片,畢竟一個(gè)人頭朝下站著還是比較明顯的。

然而,真正的挑戰(zhàn)出現(xiàn)在90度和270度的旋轉(zhuǎn)上。無(wú)論是開(kāi)源的還是商業(yè)化的頂級(jí)模型,沒(méi)有一個(gè)能夠可靠地區(qū)分這兩種旋轉(zhuǎn)角度。這就像是一個(gè)人能夠分辨出照片是正著的還是倒著的,但卻搞不清楚照片是向左轉(zhuǎn)了90度還是向右轉(zhuǎn)了90度。

為了幫助這些AI模型提高表現(xiàn),研究團(tuán)隊(duì)嘗試了各種輔助方法。他們?yōu)槟P吞峁┝藞D像的詳細(xì)描述、物體的邊界框信息、深度圖等額外信息,還嘗試了鏈?zhǔn)剿伎继崾?,希望模型能夠進(jìn)行更深入的推理。然而,這些努力帶來(lái)的改善微乎其微,有時(shí)甚至適得其反。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)他們同時(shí)向模型展示同一張圖片的四個(gè)不同旋轉(zhuǎn)版本時(shí),一些具備強(qiáng)大推理能力的模型,如o3和Gemini-2.5-Pro,表現(xiàn)有所改善。這就像是給學(xué)生開(kāi)卷考試,讓他們能夠?qū)Ρ葏⒖即鸢?。然而,?duì)于能力較弱的模型來(lái)說(shuō),這種做法反而讓它們更加混亂。

更深入的分析揭示了問(wèn)題的根本所在。通過(guò)混淆矩陣分析,研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-4o在面對(duì)90度旋轉(zhuǎn)的圖片時(shí),有459次錯(cuò)誤地將其識(shí)別為270度旋轉(zhuǎn),而面對(duì)270度旋轉(zhuǎn)的圖片時(shí),又有424次錯(cuò)誤地將其識(shí)別為90度旋轉(zhuǎn)。這種系統(tǒng)性的混淆表明,模型在區(qū)分順時(shí)針和逆時(shí)針旋轉(zhuǎn)方面存在根本性困難。

為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)更簡(jiǎn)單的二分類(lèi)測(cè)試:只要求模型判斷一張側(cè)向旋轉(zhuǎn)的圖片是順時(shí)針轉(zhuǎn)了90度還是逆時(shí)針轉(zhuǎn)了90度。結(jié)果依然令人失望。GPT-4o在300張順時(shí)針旋轉(zhuǎn)的圖片中只正確識(shí)別了52張,而Qwen-2.5-VL-7B-Instruct更是只正確識(shí)別了23張。這些模型顯然存在強(qiáng)烈的方向性偏見(jiàn),傾向于將不確定的旋轉(zhuǎn)都判斷為逆時(shí)針?lè)较颉?/p>

研究團(tuán)隊(duì)還嘗試通過(guò)微調(diào)來(lái)解決這個(gè)問(wèn)題。他們使用1000張MS COCO數(shù)據(jù)集的圖片對(duì)Qwen-2.5-VL-7B-Instruct進(jìn)行了專(zhuān)門(mén)的旋轉(zhuǎn)識(shí)別訓(xùn)練。訓(xùn)練結(jié)果顯示,模型在識(shí)別0度和180度旋轉(zhuǎn)方面有了顯著提升,180度旋轉(zhuǎn)的準(zhǔn)確率最終穩(wěn)定在0.8左右。然而,在90度和270度旋轉(zhuǎn)的識(shí)別上,模型的表現(xiàn)卻出現(xiàn)了一種奇特的振蕩模式:每當(dāng)90度旋轉(zhuǎn)的準(zhǔn)確率提高時(shí),270度旋轉(zhuǎn)的準(zhǔn)確率就會(huì)下降,反之亦然。這種現(xiàn)象表明,模型似乎陷入了兩個(gè)局部最優(yōu)解之間的循環(huán),無(wú)法同時(shí)掌握這兩種旋轉(zhuǎn)的識(shí)別。

這些發(fā)現(xiàn)對(duì)于依賴(lài)旋轉(zhuǎn)攝像頭的下游任務(wù)具有重要意義。比如機(jī)器人手臂操作、第一人稱(chēng)極限運(yùn)動(dòng)分析等應(yīng)用都需要AI模型能夠準(zhǔn)確理解圖像的朝向。目前這些模型在處理旋轉(zhuǎn)圖像時(shí)的局限性,可能會(huì)嚴(yán)重影響這些應(yīng)用的可靠性和安全性。

研究團(tuán)隊(duì)還提出了一種創(chuàng)新的投票方法來(lái)緩解這個(gè)問(wèn)題。這種方法的思路是利用模型在識(shí)別0度旋轉(zhuǎn)方面的強(qiáng)項(xiàng):將待測(cè)圖片進(jìn)一步旋轉(zhuǎn)0度、90度、180度和270度,分別讓模型進(jìn)行判斷,然后通過(guò)數(shù)學(xué)運(yùn)算將這些判斷結(jié)果轉(zhuǎn)換到統(tǒng)一的參考框架下,最后通過(guò)多數(shù)投票得出最終答案。這種方法在較弱的模型上取得了顯著的改善效果,讓所有旋轉(zhuǎn)角度的識(shí)別準(zhǔn)確率都接近0.5,雖然算不上優(yōu)秀,但至少達(dá)到了隨機(jī)猜測(cè)的水平。

然而,這種投票方法也有明顯的局限性。首先,它需要對(duì)每張圖片進(jìn)行四次模型調(diào)用,大大增加了計(jì)算成本。其次,它假設(shè)我們事先知道所有可能的旋轉(zhuǎn)角度,這在實(shí)際應(yīng)用中往往不現(xiàn)實(shí),因?yàn)檎鎸?shí)世界中的圖像旋轉(zhuǎn)往往是連續(xù)的角度值。

通過(guò)深入分析模型生成的推理過(guò)程,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人啼笑皆非的問(wèn)題。當(dāng)要求GPT-4o解釋其推理過(guò)程時(shí),模型經(jīng)常會(huì)生成類(lèi)似這樣的文本:"90度逆時(shí)針旋轉(zhuǎn)會(huì)將天空放在右邊,地面放在左邊,這與當(dāng)前朝向匹配。270度順時(shí)針旋轉(zhuǎn)會(huì)將天空放在左邊,地面放在右邊,這與當(dāng)前情況不符。"然而,90度逆時(shí)針旋轉(zhuǎn)和270度順時(shí)針旋轉(zhuǎn)實(shí)際上是完全相同的!這表明模型在概念理解上存在根本性錯(cuò)誤,它虛假地區(qū)分了兩種等價(jià)的旋轉(zhuǎn)描述。

這項(xiàng)研究的意義不僅僅在于揭示了當(dāng)前AI模型的一個(gè)具體缺陷,更重要的是它提醒我們,即使是在其他方面表現(xiàn)出色的AI系統(tǒng),在某些看似簡(jiǎn)單的任務(wù)上仍可能存在意想不到的盲點(diǎn)。這種空間推理能力的不足,反映了當(dāng)前多模態(tài)大語(yǔ)言模型在視覺(jué)理解方面仍然存在的根本性局限。

對(duì)于AI開(kāi)發(fā)者和研究者來(lái)說(shuō),這些發(fā)現(xiàn)強(qiáng)調(diào)了在模型訓(xùn)練過(guò)程中整合旋轉(zhuǎn)意識(shí)的重要性。傳統(tǒng)的訓(xùn)練數(shù)據(jù)主要包含正常朝向的圖像,這可能導(dǎo)致模型對(duì)圖像旋轉(zhuǎn)不敏感。未來(lái)的模型設(shè)計(jì)需要更好地處理各種圖像變換,包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等,以提高模型在真實(shí)世界應(yīng)用中的魯棒性。

此外,這項(xiàng)研究也為評(píng)估AI模型能力提供了一個(gè)新的視角。RotBench基準(zhǔn)測(cè)試可能會(huì)成為評(píng)估多模態(tài)模型空間推理能力的標(biāo)準(zhǔn)工具,就像其他基準(zhǔn)測(cè)試評(píng)估語(yǔ)言理解、圖像識(shí)別能力一樣。這有助于推動(dòng)整個(gè)領(lǐng)域?qū)臻g推理能力的重視和改進(jìn)。

對(duì)于普通用戶(hù)來(lái)說(shuō),這些發(fā)現(xiàn)提醒我們?cè)谑褂肁I視覺(jué)系統(tǒng)時(shí)需要保持謹(jǐn)慎,特別是在那些對(duì)方向敏感的應(yīng)用場(chǎng)景中。雖然這些AI模型在許多任務(wù)上表現(xiàn)優(yōu)異,但在涉及圖像旋轉(zhuǎn)的場(chǎng)景下,人類(lèi)的判斷可能仍然比AI更可靠。

說(shuō)到底,這項(xiàng)研究以一種出人意料的方式揭示了人工智能發(fā)展的不平衡性。我們創(chuàng)造出了能夠進(jìn)行復(fù)雜推理、生成創(chuàng)意內(nèi)容的AI系統(tǒng),但它們卻在一個(gè)三歲小孩都能輕松完成的任務(wù)上敗下陣來(lái)。這種反差不僅令人深思,也為未來(lái)的AI發(fā)展指明了新的方向。歸根結(jié)底,真正智能的AI系統(tǒng)不僅需要在高級(jí)認(rèn)知任務(wù)上表現(xiàn)出色,也需要在基礎(chǔ)的感知和空間推理任務(wù)上達(dá)到人類(lèi)的水平。只有這樣,AI才能真正成為我們?cè)诟鞣N實(shí)際應(yīng)用中可以信賴(lài)的伙伴。

Q&A

Q1:RotBench測(cè)試是什么?它如何評(píng)估AI模型的旋轉(zhuǎn)識(shí)別能力?

A:RotBench是UNC Chapel Hill研究團(tuán)隊(duì)創(chuàng)建的專(zhuān)門(mén)測(cè)試AI模型圖像旋轉(zhuǎn)識(shí)別能力的基準(zhǔn)測(cè)試。它包含350張精心篩選的圖片,每張圖片都被旋轉(zhuǎn)0度、90度、180度和270度,然后讓AI模型判斷圖片被旋轉(zhuǎn)了多少度。這個(gè)測(cè)試就像給AI做"方向感測(cè)驗(yàn)",檢查它們能否像人類(lèi)一樣輕松識(shí)別圖片的正確朝向。

Q2:為什么GPT-5、o3這些頂級(jí)AI模型無(wú)法準(zhǔn)確識(shí)別圖像旋轉(zhuǎn)?

A:研究發(fā)現(xiàn)這些模型存在系統(tǒng)性的方向識(shí)別障礙。它們能識(shí)別正常方向(0度)和上下顛倒(180度)的圖片,但完全無(wú)法區(qū)分90度和270度旋轉(zhuǎn)。問(wèn)題的根源在于模型訓(xùn)練時(shí)主要接觸正常朝向的圖像,缺乏處理旋轉(zhuǎn)變換的能力,甚至在概念理解上存在錯(cuò)誤,會(huì)虛假區(qū)分實(shí)際相同的旋轉(zhuǎn)操作。

Q3:這種旋轉(zhuǎn)識(shí)別問(wèn)題對(duì)實(shí)際應(yīng)用有什么影響?

A:這個(gè)問(wèn)題對(duì)很多實(shí)際應(yīng)用都有重要影響,特別是那些依賴(lài)旋轉(zhuǎn)攝像頭的場(chǎng)景,比如機(jī)器人手臂操作、第一人稱(chēng)極限運(yùn)動(dòng)分析、自動(dòng)駕駛等。如果AI無(wú)法準(zhǔn)確判斷圖像朝向,可能導(dǎo)致操作失誤或安全風(fēng)險(xiǎn)。研究團(tuán)隊(duì)提醒用戶(hù)在涉及方向敏感的AI視覺(jué)應(yīng)用時(shí)需要格外謹(jǐn)慎,人類(lèi)判斷在這些場(chǎng)景下可能比AI更可靠。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-