這項(xiàng)由UNC Chapel Hill的Tianyi Niu、Jaemin Cho、Elias Stengel-Eskin和Mohit Bansal團(tuán)隊(duì)共同完成的研究發(fā)表于2025年8月,論文題目為"RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation"。有興趣深入了解的讀者可以通過(guò)GitHub鏈接https://github.com/tianyiniu/RotBench訪問(wèn)完整的研究代碼和數(shù)據(jù)。
想象一下,你給一個(gè)號(hào)稱(chēng)很聰明的朋友看一張倒過(guò)來(lái)的照片,問(wèn)他這張照片被轉(zhuǎn)了多少度,結(jié)果他竟然一臉茫然。這聽(tīng)起來(lái)很不可思議,但這正是目前最先進(jìn)的AI模型面臨的尷尬處境。
當(dāng)今最頂尖的多模態(tài)大語(yǔ)言模型,包括GPT-5、o3和Gemini-2.5-Pro,在處理復(fù)雜的視覺(jué)推理任務(wù)時(shí)表現(xiàn)出色,能夠分析圖像內(nèi)容、回答視覺(jué)問(wèn)題,甚至進(jìn)行圖像分割。然而,UNC Chapel Hill的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了這些AI巨頭的一個(gè)意外弱點(diǎn):它們竟然無(wú)法可靠地識(shí)別一張圖片是否被旋轉(zhuǎn)了,以及被旋轉(zhuǎn)了多少度。
這個(gè)發(fā)現(xiàn)讓人頗為意外。人類(lèi)只需要瞥一眼就能輕松判斷一張照片是正著放的、倒過(guò)來(lái)的,還是側(cè)著的。我們能夠利用圖像中的各種線索,比如人物的姿態(tài)、家具的擺放、文字的方向等等,快速準(zhǔn)確地判斷圖像的正確朝向。但對(duì)于這些在其他視覺(jué)任務(wù)上表現(xiàn)卓越的AI模型來(lái)說(shuō),這個(gè)看似簡(jiǎn)單的任務(wù)卻成了一個(gè)難以逾越的障礙。
研究團(tuán)隊(duì)為了系統(tǒng)性地測(cè)試這個(gè)問(wèn)題,專(zhuān)門(mén)創(chuàng)建了一個(gè)名為RotBench的基準(zhǔn)測(cè)試。這個(gè)測(cè)試包含了350張精心篩選的圖片,涵蓋了生活方式、肖像和風(fēng)景等不同類(lèi)型。每張圖片都被分別旋轉(zhuǎn)0度(正常方向)、90度、180度(上下顛倒)和270度,然后讓AI模型判斷圖片的旋轉(zhuǎn)角度。
有趣的是,研究結(jié)果顯示了一個(gè)明顯的模式。幾乎所有的AI模型都能夠準(zhǔn)確識(shí)別正常朝向(0度)的圖片,這并不令人意外,因?yàn)檫@些模型在訓(xùn)練時(shí)主要接觸的都是正常朝向的圖像。一些較強(qiáng)的模型也能夠相對(duì)準(zhǔn)確地識(shí)別上下顛倒(180度)的圖片,畢竟一個(gè)人頭朝下站著還是比較明顯的。
然而,真正的挑戰(zhàn)出現(xiàn)在90度和270度的旋轉(zhuǎn)上。無(wú)論是開(kāi)源的還是商業(yè)化的頂級(jí)模型,沒(méi)有一個(gè)能夠可靠地區(qū)分這兩種旋轉(zhuǎn)角度。這就像是一個(gè)人能夠分辨出照片是正著的還是倒著的,但卻搞不清楚照片是向左轉(zhuǎn)了90度還是向右轉(zhuǎn)了90度。
為了幫助這些AI模型提高表現(xiàn),研究團(tuán)隊(duì)嘗試了各種輔助方法。他們?yōu)槟P吞峁┝藞D像的詳細(xì)描述、物體的邊界框信息、深度圖等額外信息,還嘗試了鏈?zhǔn)剿伎继崾?,希望模型能夠進(jìn)行更深入的推理。然而,這些努力帶來(lái)的改善微乎其微,有時(shí)甚至適得其反。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)他們同時(shí)向模型展示同一張圖片的四個(gè)不同旋轉(zhuǎn)版本時(shí),一些具備強(qiáng)大推理能力的模型,如o3和Gemini-2.5-Pro,表現(xiàn)有所改善。這就像是給學(xué)生開(kāi)卷考試,讓他們能夠?qū)Ρ葏⒖即鸢?。然而,?duì)于能力較弱的模型來(lái)說(shuō),這種做法反而讓它們更加混亂。
更深入的分析揭示了問(wèn)題的根本所在。通過(guò)混淆矩陣分析,研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-4o在面對(duì)90度旋轉(zhuǎn)的圖片時(shí),有459次錯(cuò)誤地將其識(shí)別為270度旋轉(zhuǎn),而面對(duì)270度旋轉(zhuǎn)的圖片時(shí),又有424次錯(cuò)誤地將其識(shí)別為90度旋轉(zhuǎn)。這種系統(tǒng)性的混淆表明,模型在區(qū)分順時(shí)針和逆時(shí)針旋轉(zhuǎn)方面存在根本性困難。
為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)更簡(jiǎn)單的二分類(lèi)測(cè)試:只要求模型判斷一張側(cè)向旋轉(zhuǎn)的圖片是順時(shí)針轉(zhuǎn)了90度還是逆時(shí)針轉(zhuǎn)了90度。結(jié)果依然令人失望。GPT-4o在300張順時(shí)針旋轉(zhuǎn)的圖片中只正確識(shí)別了52張,而Qwen-2.5-VL-7B-Instruct更是只正確識(shí)別了23張。這些模型顯然存在強(qiáng)烈的方向性偏見(jiàn),傾向于將不確定的旋轉(zhuǎn)都判斷為逆時(shí)針?lè)较颉?/p>
研究團(tuán)隊(duì)還嘗試通過(guò)微調(diào)來(lái)解決這個(gè)問(wèn)題。他們使用1000張MS COCO數(shù)據(jù)集的圖片對(duì)Qwen-2.5-VL-7B-Instruct進(jìn)行了專(zhuān)門(mén)的旋轉(zhuǎn)識(shí)別訓(xùn)練。訓(xùn)練結(jié)果顯示,模型在識(shí)別0度和180度旋轉(zhuǎn)方面有了顯著提升,180度旋轉(zhuǎn)的準(zhǔn)確率最終穩(wěn)定在0.8左右。然而,在90度和270度旋轉(zhuǎn)的識(shí)別上,模型的表現(xiàn)卻出現(xiàn)了一種奇特的振蕩模式:每當(dāng)90度旋轉(zhuǎn)的準(zhǔn)確率提高時(shí),270度旋轉(zhuǎn)的準(zhǔn)確率就會(huì)下降,反之亦然。這種現(xiàn)象表明,模型似乎陷入了兩個(gè)局部最優(yōu)解之間的循環(huán),無(wú)法同時(shí)掌握這兩種旋轉(zhuǎn)的識(shí)別。
這些發(fā)現(xiàn)對(duì)于依賴(lài)旋轉(zhuǎn)攝像頭的下游任務(wù)具有重要意義。比如機(jī)器人手臂操作、第一人稱(chēng)極限運(yùn)動(dòng)分析等應(yīng)用都需要AI模型能夠準(zhǔn)確理解圖像的朝向。目前這些模型在處理旋轉(zhuǎn)圖像時(shí)的局限性,可能會(huì)嚴(yán)重影響這些應(yīng)用的可靠性和安全性。
研究團(tuán)隊(duì)還提出了一種創(chuàng)新的投票方法來(lái)緩解這個(gè)問(wèn)題。這種方法的思路是利用模型在識(shí)別0度旋轉(zhuǎn)方面的強(qiáng)項(xiàng):將待測(cè)圖片進(jìn)一步旋轉(zhuǎn)0度、90度、180度和270度,分別讓模型進(jìn)行判斷,然后通過(guò)數(shù)學(xué)運(yùn)算將這些判斷結(jié)果轉(zhuǎn)換到統(tǒng)一的參考框架下,最后通過(guò)多數(shù)投票得出最終答案。這種方法在較弱的模型上取得了顯著的改善效果,讓所有旋轉(zhuǎn)角度的識(shí)別準(zhǔn)確率都接近0.5,雖然算不上優(yōu)秀,但至少達(dá)到了隨機(jī)猜測(cè)的水平。
然而,這種投票方法也有明顯的局限性。首先,它需要對(duì)每張圖片進(jìn)行四次模型調(diào)用,大大增加了計(jì)算成本。其次,它假設(shè)我們事先知道所有可能的旋轉(zhuǎn)角度,這在實(shí)際應(yīng)用中往往不現(xiàn)實(shí),因?yàn)檎鎸?shí)世界中的圖像旋轉(zhuǎn)往往是連續(xù)的角度值。
通過(guò)深入分析模型生成的推理過(guò)程,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人啼笑皆非的問(wèn)題。當(dāng)要求GPT-4o解釋其推理過(guò)程時(shí),模型經(jīng)常會(huì)生成類(lèi)似這樣的文本:"90度逆時(shí)針旋轉(zhuǎn)會(huì)將天空放在右邊,地面放在左邊,這與當(dāng)前朝向匹配。270度順時(shí)針旋轉(zhuǎn)會(huì)將天空放在左邊,地面放在右邊,這與當(dāng)前情況不符。"然而,90度逆時(shí)針旋轉(zhuǎn)和270度順時(shí)針旋轉(zhuǎn)實(shí)際上是完全相同的!這表明模型在概念理解上存在根本性錯(cuò)誤,它虛假地區(qū)分了兩種等價(jià)的旋轉(zhuǎn)描述。
這項(xiàng)研究的意義不僅僅在于揭示了當(dāng)前AI模型的一個(gè)具體缺陷,更重要的是它提醒我們,即使是在其他方面表現(xiàn)出色的AI系統(tǒng),在某些看似簡(jiǎn)單的任務(wù)上仍可能存在意想不到的盲點(diǎn)。這種空間推理能力的不足,反映了當(dāng)前多模態(tài)大語(yǔ)言模型在視覺(jué)理解方面仍然存在的根本性局限。
對(duì)于AI開(kāi)發(fā)者和研究者來(lái)說(shuō),這些發(fā)現(xiàn)強(qiáng)調(diào)了在模型訓(xùn)練過(guò)程中整合旋轉(zhuǎn)意識(shí)的重要性。傳統(tǒng)的訓(xùn)練數(shù)據(jù)主要包含正常朝向的圖像,這可能導(dǎo)致模型對(duì)圖像旋轉(zhuǎn)不敏感。未來(lái)的模型設(shè)計(jì)需要更好地處理各種圖像變換,包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等,以提高模型在真實(shí)世界應(yīng)用中的魯棒性。
此外,這項(xiàng)研究也為評(píng)估AI模型能力提供了一個(gè)新的視角。RotBench基準(zhǔn)測(cè)試可能會(huì)成為評(píng)估多模態(tài)模型空間推理能力的標(biāo)準(zhǔn)工具,就像其他基準(zhǔn)測(cè)試評(píng)估語(yǔ)言理解、圖像識(shí)別能力一樣。這有助于推動(dòng)整個(gè)領(lǐng)域?qū)臻g推理能力的重視和改進(jìn)。
對(duì)于普通用戶(hù)來(lái)說(shuō),這些發(fā)現(xiàn)提醒我們?cè)谑褂肁I視覺(jué)系統(tǒng)時(shí)需要保持謹(jǐn)慎,特別是在那些對(duì)方向敏感的應(yīng)用場(chǎng)景中。雖然這些AI模型在許多任務(wù)上表現(xiàn)優(yōu)異,但在涉及圖像旋轉(zhuǎn)的場(chǎng)景下,人類(lèi)的判斷可能仍然比AI更可靠。
說(shuō)到底,這項(xiàng)研究以一種出人意料的方式揭示了人工智能發(fā)展的不平衡性。我們創(chuàng)造出了能夠進(jìn)行復(fù)雜推理、生成創(chuàng)意內(nèi)容的AI系統(tǒng),但它們卻在一個(gè)三歲小孩都能輕松完成的任務(wù)上敗下陣來(lái)。這種反差不僅令人深思,也為未來(lái)的AI發(fā)展指明了新的方向。歸根結(jié)底,真正智能的AI系統(tǒng)不僅需要在高級(jí)認(rèn)知任務(wù)上表現(xiàn)出色,也需要在基礎(chǔ)的感知和空間推理任務(wù)上達(dá)到人類(lèi)的水平。只有這樣,AI才能真正成為我們?cè)诟鞣N實(shí)際應(yīng)用中可以信賴(lài)的伙伴。
Q&A
Q1:RotBench測(cè)試是什么?它如何評(píng)估AI模型的旋轉(zhuǎn)識(shí)別能力?
A:RotBench是UNC Chapel Hill研究團(tuán)隊(duì)創(chuàng)建的專(zhuān)門(mén)測(cè)試AI模型圖像旋轉(zhuǎn)識(shí)別能力的基準(zhǔn)測(cè)試。它包含350張精心篩選的圖片,每張圖片都被旋轉(zhuǎn)0度、90度、180度和270度,然后讓AI模型判斷圖片被旋轉(zhuǎn)了多少度。這個(gè)測(cè)試就像給AI做"方向感測(cè)驗(yàn)",檢查它們能否像人類(lèi)一樣輕松識(shí)別圖片的正確朝向。
Q2:為什么GPT-5、o3這些頂級(jí)AI模型無(wú)法準(zhǔn)確識(shí)別圖像旋轉(zhuǎn)?
A:研究發(fā)現(xiàn)這些模型存在系統(tǒng)性的方向識(shí)別障礙。它們能識(shí)別正常方向(0度)和上下顛倒(180度)的圖片,但完全無(wú)法區(qū)分90度和270度旋轉(zhuǎn)。問(wèn)題的根源在于模型訓(xùn)練時(shí)主要接觸正常朝向的圖像,缺乏處理旋轉(zhuǎn)變換的能力,甚至在概念理解上存在錯(cuò)誤,會(huì)虛假區(qū)分實(shí)際相同的旋轉(zhuǎn)操作。
Q3:這種旋轉(zhuǎn)識(shí)別問(wèn)題對(duì)實(shí)際應(yīng)用有什么影響?
A:這個(gè)問(wèn)題對(duì)很多實(shí)際應(yīng)用都有重要影響,特別是那些依賴(lài)旋轉(zhuǎn)攝像頭的場(chǎng)景,比如機(jī)器人手臂操作、第一人稱(chēng)極限運(yùn)動(dòng)分析、自動(dòng)駕駛等。如果AI無(wú)法準(zhǔn)確判斷圖像朝向,可能導(dǎo)致操作失誤或安全風(fēng)險(xiǎn)。研究團(tuán)隊(duì)提醒用戶(hù)在涉及方向敏感的AI視覺(jué)應(yīng)用時(shí)需要格外謹(jǐn)慎,人類(lèi)判斷在這些場(chǎng)景下可能比AI更可靠。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。