av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="hh3jt"><menuitem id="hh3jt"></menuitem></pre>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

當(dāng)AI模型遇到"轉(zhuǎn)個(gè)身"的挑戰(zhàn)：UNC Chapel Hill揭示多模態(tài)大語(yǔ)言模型的方向感困惑

多模態(tài)大語(yǔ)言模型圖像旋轉(zhuǎn)識(shí)別空間推理能力

當(dāng)AI模型遇到"轉(zhuǎn)個(gè)身"的挑戰(zhàn)：UNC Chapel Hill揭示多模態(tài)大語(yǔ)言模型的方向感困惑

作者：科技行者

2025-08-27 10:30

分享至：

UNC Chapel Hill研究團(tuán)隊(duì)發(fā)現(xiàn)，即使是GPT-5、o3等頂級(jí)多模態(tài)大語(yǔ)言模型也無(wú)法可靠識(shí)別圖像旋轉(zhuǎn)。通過(guò)RotBench基準(zhǔn)測(cè)試，研究揭示這些AI模型雖能識(shí)別正常朝向和倒置圖片，卻完全無(wú)法區(qū)分90度與270度旋轉(zhuǎn)，暴露出當(dāng)前AI在基礎(chǔ)空間推理方面的重大缺陷。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-27 10:30 ? 科技行者

這項(xiàng)由UNC Chapel Hill的Tianyi Niu、Jaemin Cho、Elias Stengel-Eskin和Mohit Bansal團(tuán)隊(duì)共同完成的研究發(fā)表于2025年8月，論文題目為"RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation"。有興趣深入了解的讀者可以通過(guò)GitHub鏈接https://github.com/tianyiniu/RotBench訪問(wèn)完整的研究代碼和數(shù)據(jù)。

想象一下，你給一個(gè)號(hào)稱(chēng)很聰明的朋友看一張倒過(guò)來(lái)的照片，問(wèn)他這張照片被轉(zhuǎn)了多少度，結(jié)果他竟然一臉茫然。這聽(tīng)起來(lái)很不可思議，但這正是目前最先進(jìn)的AI模型面臨的尷尬處境。

當(dāng)今最頂尖的多模態(tài)大語(yǔ)言模型，包括GPT-5、o3和Gemini-2.5-Pro，在處理復(fù)雜的視覺(jué)推理任務(wù)時(shí)表現(xiàn)出色，能夠分析圖像內(nèi)容、回答視覺(jué)問(wèn)題，甚至進(jìn)行圖像分割。然而，UNC Chapel Hill的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了這些AI巨頭的一個(gè)意外弱點(diǎn)：它們竟然無(wú)法可靠地識(shí)別一張圖片是否被旋轉(zhuǎn)了，以及被旋轉(zhuǎn)了多少度。

這個(gè)發(fā)現(xiàn)讓人頗為意外。人類(lèi)只需要瞥一眼就能輕松判斷一張照片是正著放的、倒過(guò)來(lái)的，還是側(cè)著的。我們能夠利用圖像中的各種線索，比如人物的姿態(tài)、家具的擺放、文字的方向等等，快速準(zhǔn)確地判斷圖像的正確朝向。但對(duì)于這些在其他視覺(jué)任務(wù)上表現(xiàn)卓越的AI模型來(lái)說(shuō)，這個(gè)看似簡(jiǎn)單的任務(wù)卻成了一個(gè)難以逾越的障礙。

研究團(tuán)隊(duì)為了系統(tǒng)性地測(cè)試這個(gè)問(wèn)題，專(zhuān)門(mén)創(chuàng)建了一個(gè)名為RotBench的基準(zhǔn)測(cè)試。這個(gè)測(cè)試包含了350張精心篩選的圖片，涵蓋了生活方式、肖像和風(fēng)景等不同類(lèi)型。每張圖片都被分別旋轉(zhuǎn)0度（正常方向）、90度、180度（上下顛倒）和270度，然后讓AI模型判斷圖片的旋轉(zhuǎn)角度。

有趣的是，研究結(jié)果顯示了一個(gè)明顯的模式。幾乎所有的AI模型都能夠準(zhǔn)確識(shí)別正常朝向（0度）的圖片，這并不令人意外，因?yàn)檫@些模型在訓(xùn)練時(shí)主要接觸的都是正常朝向的圖像。一些較強(qiáng)的模型也能夠相對(duì)準(zhǔn)確地識(shí)別上下顛倒（180度）的圖片，畢竟一個(gè)人頭朝下站著還是比較明顯的。

然而，真正的挑戰(zhàn)出現(xiàn)在90度和270度的旋轉(zhuǎn)上。無(wú)論是開(kāi)源的還是商業(yè)化的頂級(jí)模型，沒(méi)有一個(gè)能夠可靠地區(qū)分這兩種旋轉(zhuǎn)角度。這就像是一個(gè)人能夠分辨出照片是正著的還是倒著的，但卻搞不清楚照片是向左轉(zhuǎn)了90度還是向右轉(zhuǎn)了90度。

為了幫助這些AI模型提高表現(xiàn)，研究團(tuán)隊(duì)嘗試了各種輔助方法。他們?yōu)槟Ｐ吞峁┝藞D像的詳細(xì)描述、物體的邊界框信息、深度圖等額外信息，還嘗試了鏈?zhǔn)剿伎继崾?，希望模型能夠進(jìn)行更深入的推理。然而，這些努力帶來(lái)的改善微乎其微，有時(shí)甚至適得其反。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：當(dāng)他們同時(shí)向模型展示同一張圖片的四個(gè)不同旋轉(zhuǎn)版本時(shí)，一些具備強(qiáng)大推理能力的模型，如o3和Gemini-2.5-Pro，表現(xiàn)有所改善。這就像是給學(xué)生開(kāi)卷考試，讓他們能夠?qū)Ρ葏⒖即鸢?。然而，?duì)于能力較弱的模型來(lái)說(shuō)，這種做法反而讓它們更加混亂。

更深入的分析揭示了問(wèn)題的根本所在。通過(guò)混淆矩陣分析，研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-4o在面對(duì)90度旋轉(zhuǎn)的圖片時(shí)，有459次錯(cuò)誤地將其識(shí)別為270度旋轉(zhuǎn)，而面對(duì)270度旋轉(zhuǎn)的圖片時(shí)，又有424次錯(cuò)誤地將其識(shí)別為90度旋轉(zhuǎn)。這種系統(tǒng)性的混淆表明，模型在區(qū)分順時(shí)針和逆時(shí)針旋轉(zhuǎn)方面存在根本性困難。

為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)更簡(jiǎn)單的二分類(lèi)測(cè)試：只要求模型判斷一張側(cè)向旋轉(zhuǎn)的圖片是順時(shí)針轉(zhuǎn)了90度還是逆時(shí)針轉(zhuǎn)了90度。結(jié)果依然令人失望。GPT-4o在300張順時(shí)針旋轉(zhuǎn)的圖片中只正確識(shí)別了52張，而Qwen-2.5-VL-7B-Instruct更是只正確識(shí)別了23張。這些模型顯然存在強(qiáng)烈的方向性偏見(jiàn)，傾向于將不確定的旋轉(zhuǎn)都判斷為逆時(shí)針?lè)较颉?/p>

研究團(tuán)隊(duì)還嘗試通過(guò)微調(diào)來(lái)解決這個(gè)問(wèn)題。他們使用1000張MS COCO數(shù)據(jù)集的圖片對(duì)Qwen-2.5-VL-7B-Instruct進(jìn)行了專(zhuān)門(mén)的旋轉(zhuǎn)識(shí)別訓(xùn)練。訓(xùn)練結(jié)果顯示，模型在識(shí)別0度和180度旋轉(zhuǎn)方面有了顯著提升，180度旋轉(zhuǎn)的準(zhǔn)確率最終穩(wěn)定在0.8左右。然而，在90度和270度旋轉(zhuǎn)的識(shí)別上，模型的表現(xiàn)卻出現(xiàn)了一種奇特的振蕩模式：每當(dāng)90度旋轉(zhuǎn)的準(zhǔn)確率提高時(shí)，270度旋轉(zhuǎn)的準(zhǔn)確率就會(huì)下降，反之亦然。這種現(xiàn)象表明，模型似乎陷入了兩個(gè)局部最優(yōu)解之間的循環(huán)，無(wú)法同時(shí)掌握這兩種旋轉(zhuǎn)的識(shí)別。

這些發(fā)現(xiàn)對(duì)于依賴(lài)旋轉(zhuǎn)攝像頭的下游任務(wù)具有重要意義。比如機(jī)器人手臂操作、第一人稱(chēng)極限運(yùn)動(dòng)分析等應(yīng)用都需要AI模型能夠準(zhǔn)確理解圖像的朝向。目前這些模型在處理旋轉(zhuǎn)圖像時(shí)的局限性，可能會(huì)嚴(yán)重影響這些應(yīng)用的可靠性和安全性。

研究團(tuán)隊(duì)還提出了一種創(chuàng)新的投票方法來(lái)緩解這個(gè)問(wèn)題。這種方法的思路是利用模型在識(shí)別0度旋轉(zhuǎn)方面的強(qiáng)項(xiàng)：將待測(cè)圖片進(jìn)一步旋轉(zhuǎn)0度、90度、180度和270度，分別讓模型進(jìn)行判斷，然后通過(guò)數(shù)學(xué)運(yùn)算將這些判斷結(jié)果轉(zhuǎn)換到統(tǒng)一的參考框架下，最后通過(guò)多數(shù)投票得出最終答案。這種方法在較弱的模型上取得了顯著的改善效果，讓所有旋轉(zhuǎn)角度的識(shí)別準(zhǔn)確率都接近0.5，雖然算不上優(yōu)秀，但至少達(dá)到了隨機(jī)猜測(cè)的水平。

然而，這種投票方法也有明顯的局限性。首先，它需要對(duì)每張圖片進(jìn)行四次模型調(diào)用，大大增加了計(jì)算成本。其次，它假設(shè)我們事先知道所有可能的旋轉(zhuǎn)角度，這在實(shí)際應(yīng)用中往往不現(xiàn)實(shí)，因?yàn)檎鎸?shí)世界中的圖像旋轉(zhuǎn)往往是連續(xù)的角度值。

通過(guò)深入分析模型生成的推理過(guò)程，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人啼笑皆非的問(wèn)題。當(dāng)要求GPT-4o解釋其推理過(guò)程時(shí)，模型經(jīng)常會(huì)生成類(lèi)似這樣的文本："90度逆時(shí)針旋轉(zhuǎn)會(huì)將天空放在右邊，地面放在左邊，這與當(dāng)前朝向匹配。270度順時(shí)針旋轉(zhuǎn)會(huì)將天空放在左邊，地面放在右邊，這與當(dāng)前情況不符。"然而，90度逆時(shí)針旋轉(zhuǎn)和270度順時(shí)針旋轉(zhuǎn)實(shí)際上是完全相同的！這表明模型在概念理解上存在根本性錯(cuò)誤，它虛假地區(qū)分了兩種等價(jià)的旋轉(zhuǎn)描述。

這項(xiàng)研究的意義不僅僅在于揭示了當(dāng)前AI模型的一個(gè)具體缺陷，更重要的是它提醒我們，即使是在其他方面表現(xiàn)出色的AI系統(tǒng)，在某些看似簡(jiǎn)單的任務(wù)上仍可能存在意想不到的盲點(diǎn)。這種空間推理能力的不足，反映了當(dāng)前多模態(tài)大語(yǔ)言模型在視覺(jué)理解方面仍然存在的根本性局限。

對(duì)于AI開(kāi)發(fā)者和研究者來(lái)說(shuō)，這些發(fā)現(xiàn)強(qiáng)調(diào)了在模型訓(xùn)練過(guò)程中整合旋轉(zhuǎn)意識(shí)的重要性。傳統(tǒng)的訓(xùn)練數(shù)據(jù)主要包含正常朝向的圖像，這可能導(dǎo)致模型對(duì)圖像旋轉(zhuǎn)不敏感。未來(lái)的模型設(shè)計(jì)需要更好地處理各種圖像變換，包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等，以提高模型在真實(shí)世界應(yīng)用中的魯棒性。

此外，這項(xiàng)研究也為評(píng)估AI模型能力提供了一個(gè)新的視角。RotBench基準(zhǔn)測(cè)試可能會(huì)成為評(píng)估多模態(tài)模型空間推理能力的標(biāo)準(zhǔn)工具，就像其他基準(zhǔn)測(cè)試評(píng)估語(yǔ)言理解、圖像識(shí)別能力一樣。這有助于推動(dòng)整個(gè)領(lǐng)域?qū)臻g推理能力的重視和改進(jìn)。

對(duì)于普通用戶(hù)來(lái)說(shuō)，這些發(fā)現(xiàn)提醒我們?cè)谑褂肁I視覺(jué)系統(tǒng)時(shí)需要保持謹(jǐn)慎，特別是在那些對(duì)方向敏感的應(yīng)用場(chǎng)景中。雖然這些AI模型在許多任務(wù)上表現(xiàn)優(yōu)異，但在涉及圖像旋轉(zhuǎn)的場(chǎng)景下，人類(lèi)的判斷可能仍然比AI更可靠。

說(shuō)到底，這項(xiàng)研究以一種出人意料的方式揭示了人工智能發(fā)展的不平衡性。我們創(chuàng)造出了能夠進(jìn)行復(fù)雜推理、生成創(chuàng)意內(nèi)容的AI系統(tǒng)，但它們卻在一個(gè)三歲小孩都能輕松完成的任務(wù)上敗下陣來(lái)。這種反差不僅令人深思，也為未來(lái)的AI發(fā)展指明了新的方向。歸根結(jié)底，真正智能的AI系統(tǒng)不僅需要在高級(jí)認(rèn)知任務(wù)上表現(xiàn)出色，也需要在基礎(chǔ)的感知和空間推理任務(wù)上達(dá)到人類(lèi)的水平。只有這樣，AI才能真正成為我們?cè)诟鞣N實(shí)際應(yīng)用中可以信賴(lài)的伙伴。

Q&A

Q1：RotBench測(cè)試是什么？它如何評(píng)估AI模型的旋轉(zhuǎn)識(shí)別能力？

A：RotBench是UNC Chapel Hill研究團(tuán)隊(duì)創(chuàng)建的專(zhuān)門(mén)測(cè)試AI模型圖像旋轉(zhuǎn)識(shí)別能力的基準(zhǔn)測(cè)試。它包含350張精心篩選的圖片，每張圖片都被旋轉(zhuǎn)0度、90度、180度和270度，然后讓AI模型判斷圖片被旋轉(zhuǎn)了多少度。這個(gè)測(cè)試就像給AI做"方向感測(cè)驗(yàn)"，檢查它們能否像人類(lèi)一樣輕松識(shí)別圖片的正確朝向。

Q2：為什么GPT-5、o3這些頂級(jí)AI模型無(wú)法準(zhǔn)確識(shí)別圖像旋轉(zhuǎn)？

A：研究發(fā)現(xiàn)這些模型存在系統(tǒng)性的方向識(shí)別障礙。它們能識(shí)別正常方向（0度）和上下顛倒（180度）的圖片，但完全無(wú)法區(qū)分90度和270度旋轉(zhuǎn)。問(wèn)題的根源在于模型訓(xùn)練時(shí)主要接觸正常朝向的圖像，缺乏處理旋轉(zhuǎn)變換的能力，甚至在概念理解上存在錯(cuò)誤，會(huì)虛假區(qū)分實(shí)際相同的旋轉(zhuǎn)操作。

Q3：這種旋轉(zhuǎn)識(shí)別問(wèn)題對(duì)實(shí)際應(yīng)用有什么影響？

A：這個(gè)問(wèn)題對(duì)很多實(shí)際應(yīng)用都有重要影響，特別是那些依賴(lài)旋轉(zhuǎn)攝像頭的場(chǎng)景，比如機(jī)器人手臂操作、第一人稱(chēng)極限運(yùn)動(dòng)分析、自動(dòng)駕駛等。如果AI無(wú)法準(zhǔn)確判斷圖像朝向，可能導(dǎo)致操作失誤或安全風(fēng)險(xiǎn)。研究團(tuán)隊(duì)提醒用戶(hù)在涉及方向敏感的AI視覺(jué)應(yīng)用時(shí)需要格外謹(jǐn)慎，人類(lèi)判斷在這些場(chǎng)景下可能比AI更可靠。

多模態(tài)大語(yǔ)言模型圖像旋轉(zhuǎn)識(shí)別空間推理能力

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專(zhuān)家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<nobr id="yonsp"></nobr>