視覺文字謎(Rebus Puzzles)是一種通過圖像、空間排列和符號替代來編碼語言的視覺謎題,對當(dāng)前最先進(jìn)的視覺語言模型(VLMs)提出了獨特挑戰(zhàn)。這項由加州大學(xué)伯克利分校和POSTECH聯(lián)合研究團(tuán)隊(李希慶、葛佳欣、吳宗翰、康民宇、Trevor Darrell和David M. Chan)于2025年5月發(fā)表在arXiv(arXiv:2505.23759v1)的研究,系統(tǒng)地探索了當(dāng)前人工智能模型在解決這類需要復(fù)雜推理能力的視覺謎題時的表現(xiàn)與局限性。
想象一下,你看到"WATER"這個單詞被排列成向下彎曲的形狀,你可能立刻想到"瀑布(Waterfall)"。又或者看到"TIME"下方寫著"ABCDE",你會想到"長時間不見(Long time no see)"。這些看似簡單的謎題,對人類來說可能只需幾秒就能解決,但對于目前最先進(jìn)的AI視覺語言模型卻成了一道難題。
為什么這些視覺謎題對AI如此具有挑戰(zhàn)性?研究團(tuán)隊解釋說,與傳統(tǒng)的圖像描述或問答任務(wù)不同,解決視覺文字謎需要多模態(tài)抽象、符號推理以及對文化、語音和語言雙關(guān)語的理解。這些能力恰恰是目前AI系統(tǒng)的短板所在。
研究團(tuán)隊構(gòu)建了一個包含432個精心創(chuàng)建并注釋的英語視覺文字謎數(shù)據(jù)集,涵蓋從簡單的圖示替換到依賴空間位置的線索(如"head"在"heels"上方表示"head over heels")等多種類型。他們評估了各種視覺語言模型的表現(xiàn),從OpenAI的GPT-4o到Google的Gemini-2.5系列,再到開源模型如Qwen2.5-VL。
研究結(jié)果揭示,即使是最先進(jìn)的模型在解決這些謎題時也面臨顯著困難。雖然閉源推理模型如o3、o4-mini和gemini-2.5-pro表現(xiàn)相對較好,甚至超過了非英語母語的人類解題者,但與專家解題者相比仍有巨大差距。最佳模型o3的準(zhǔn)確率為54.6%,而人類專家可達(dá)76.4%。更令人驚訝的是,開源模型的表現(xiàn)更加糟糕,如phi-4的準(zhǔn)確率僅為0.46%。
一、視覺文字謎:AI的推理盲點
視覺文字謎是什么?想象你看到一個圖像,里面有字母"M"上方寫著"MIND",這個謎題表示"Mind over matter(精神勝于物質(zhì))"。又或者看到"ONCE"旁邊有一個時鐘,表示"Once upon a time(很久很久以前)"。這些視覺謎題結(jié)合了圖像識別、空間關(guān)系理解和語言創(chuàng)造性,對AI系統(tǒng)提出了多層面的挑戰(zhàn)。
研究團(tuán)隊對每個謎題進(jìn)行了精細(xì)分類,標(biāo)注了解決該謎題所需的認(rèn)知技能類別。這些技能包括缺失或否定(AN)、文本方向(TO)、數(shù)量或數(shù)學(xué)推理(QMR)、視覺隱喻和文化引用(VMCR)、符號替代(SS)、字體樣式/大?。‵S)、字母和詞語操作(LWM)、語音和文字游戲(PW)、空間和位置推理(SPR)、圖像識別(IR)以及文本識別(TR)。
通過這種分類,研究人員可以精確定位AI模型在哪些認(rèn)知能力上表現(xiàn)較好,哪些方面存在明顯短板。這就像醫(yī)生對病人進(jìn)行全面檢查,確定健康狀況和潛在問題一樣。
二、AI模型的表現(xiàn):成功與失敗的模式
當(dāng)研究團(tuán)隊分析不同技能類別的表現(xiàn)時,發(fā)現(xiàn)了一些有趣的模式。模型在符號替代(SS/SPR)和數(shù)量推理(QMR)樣本上表現(xiàn)驚人地好,這可能是因為這些模型在訓(xùn)練時接觸了大量的數(shù)學(xué)特定基準(zhǔn)測試。然而,在抽象推理和橫向思維方面存在顯著差距,特別是在識別物體的缺失(AN)和解決視覺隱喻(VMCR)方面。
舉個例子來理解這種差異:當(dāng)你看到數(shù)字"4"替代單詞"for"時,大多數(shù)AI模型能夠理解這種直接的符號替換。但當(dāng)謎題需要理解缺失的元素(如一個有空白的圖像表示"無形的/invisible")或文化參考(如特定的視覺隱喻)時,模型就會困惑不已。
研究還發(fā)現(xiàn)了空間和位置推理(SPR)與字母和詞語操作(LWM)之間的能力差距。許多模型在理解元素的空間布局方面表現(xiàn)尚可,但當(dāng)謎題要求對這些布局進(jìn)行抽象操作或重新解釋時,模型就顯得力不從心了。這就像一個人可以看懂地圖上的位置標(biāo)記,但無法規(guī)劃從A點到B點的最佳路線一樣。
同樣有趣的是文本識別(TR)、字體樣式/大小(FS)和文本方向(TO)之間的表現(xiàn)差異。雖然最好的模型在文本識別和理解非常規(guī)方向的文本方面表現(xiàn)不錯,但它們在利用字體樣式或大小作為線索方面相對較弱。
三、改進(jìn)策略:AI能從提示中學(xué)習(xí)嗎?
研究團(tuán)隊探索了多種策略來提高模型的表現(xiàn),包括上下文學(xué)習(xí)、技能引導(dǎo)提示和迭代改進(jìn)。
在上下文學(xué)習(xí)實驗中,研究人員提供了一個包含圖像、答案和推理的示例,看看模型是否能從中學(xué)習(xí)。結(jié)果顯示,這種方法對大多數(shù)模型影響有限,Qwen2.5-VL顯示了輕微改善,而o4-mini反而表現(xiàn)下降。這表明性能瓶頸可能不是來自于對任務(wù)的理解,而是模型內(nèi)在的推理能力限制。
當(dāng)研究人員明確告訴模型解決每個謎題所需的具體認(rèn)知技能時,模型表現(xiàn)略有提升。這就像給學(xué)生一份考試,不僅告訴他們問題,還提示他們應(yīng)該使用哪種解題方法。這種"技能引導(dǎo)"提示的有限效果表明,模型在識別所需技能方面可能不是主要障礙,真正的瓶頸在于如何有效執(zhí)行這些推理過程。
研究團(tuán)隊還嘗試了迭代改進(jìn)策略,允許模型在首次失敗后多次嘗試解決同一謎題。結(jié)果顯示,雖然模型可以通過多次嘗試提高表現(xiàn),但很快會達(dá)到性能上限。這表明模型雖然能夠從錯誤中學(xué)習(xí)一些東西,但仍然存在根本性的推理局限。
四、視覺重要嗎?語言就足夠了?
為了進(jìn)一步理解視覺感知對謎題解決能力的影響,研究人員設(shè)計了一個實驗,用詳細(xì)的文本描述替代謎題圖像。結(jié)果非常有啟發(fā)性:推理模型(特別是o4-mini)在失去直接視覺輸入后表現(xiàn)顯著下降,而較小的模型如Qwen2.5-VL在使用詳細(xì)描述時反而略有改善。
這一發(fā)現(xiàn)揭示了視覺語言模型,特別是推理模型,在解碼過程中可能依賴對視覺內(nèi)容的迭代檢查。就像人類在解決復(fù)雜謎題時,會反復(fù)查看圖像的不同部分,尋找線索和模式一樣。當(dāng)模型失去這種直接視覺訪問能力時,其推理過程受到顯著影響。
五、基礎(chǔ)視覺模型的表現(xiàn)如何?
除了測試完整的視覺語言模型外,研究人員還評估了底層視覺對比模型(如CLIP和SigLIP)在檢索正確答案方面的表現(xiàn)。這些模型通常作為視覺語言模型的特征提取器。
結(jié)果顯示,模型架構(gòu)設(shè)計對性能有顯著影響。盡管MobileCLIP以效率為重點,但由于其底層數(shù)據(jù)分布(DataCompDR數(shù)據(jù)集),它表現(xiàn)出色。SigLIP 2和TULIP都包含顯式視覺重建目標(biāo),這可能導(dǎo)致它們在任務(wù)上表現(xiàn)良好。
模型規(guī)模和分塊大小也驅(qū)動了性能,較大的規(guī)模(L、GOPT、So400m)和較小的分塊大?。˙16 vs B32)通常產(chǎn)生更好的指標(biāo),表明更精細(xì)的標(biāo)記化有助于視覺特征表示。有趣的是,對于SigLIP 2系列,將分辨率提高到256以上并沒有一致改善指標(biāo),有時在384和512分辨率下反而略有下降,這表明視覺文字謎不需要高保真度的視覺編碼,而是需要更靈活的潛在空間。
六、研究意義與未來方向
這項研究不僅揭示了當(dāng)前視覺語言模型在解決視覺文字謎方面的能力和局限性,還提出了幾個重要的未來研究方向。
首先,模型在理解否定、解釋視覺隱喻以及超越簡單感知任務(wù)進(jìn)行更深層次抽象推理方面的局限性需要進(jìn)一步研究。其次,探索迭代改進(jìn)的極限以及縮小意識與執(zhí)行之間的差距至關(guān)重要。最后,理解在推理過程中對視覺內(nèi)容的迭代檢查如何影響下游性能也是一個關(guān)鍵問題,特別是考慮到研究觀察到的推理模型對直接視覺訪問的重要性。
這項研究的局限性也值得注意。由于所有謎題都是手工生成和注釋的,數(shù)據(jù)集相對較?。▋H432個樣本),無法詳盡探索所有可能的類別。此外,謎題全部是英語,未探索其他語言的視覺文字謎。研究也在很大程度上依賴于表現(xiàn)良好的GPT模型進(jìn)行分析,這可能使發(fā)現(xiàn)在某種程度上特定于OpenAI模型。
總的來說,這項研究表明,雖然視覺語言模型在感知任務(wù)或涉及更直接、學(xué)習(xí)到的映射的任務(wù)上表現(xiàn)較強,但在需要更深層次抽象的任務(wù)上仍然較弱。這種差距提醒我們,盡管AI在某些方面取得了令人印象深刻的進(jìn)步,但在真正理解人類創(chuàng)造的視覺和語言游戲方面仍有很長的路要走。
解決這些挑戰(zhàn)對于開發(fā)能夠在多模態(tài)理解方面展現(xiàn)更人類化、更穩(wěn)健和更通用能力的視覺語言模型至關(guān)重要,這不僅有助于解決視覺謎題,還能應(yīng)用于現(xiàn)實世界中的各種應(yīng)用。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。