當(dāng)我們看到一張棋盤照片和一串看起來(lái)像天書一樣的字母數(shù)字組合"rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR"時(shí),可能很難相信它們其實(shí)在描述完全相同的信息——同一個(gè)國(guó)際象棋開局位置。然而,這正是多倫多大學(xué)計(jì)算機(jī)科學(xué)系的唐振偉、焦迪凡、楊布萊爾和安德森·阿什頓教授團(tuán)隊(duì)在2025年發(fā)表于COLM會(huì)議的最新研究所關(guān)注的核心問(wèn)題。這項(xiàng)發(fā)表于2025年8月的研究論文完整標(biāo)題為《SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models》,感興趣的讀者可以通過(guò)arXiv:2508.18179v1訪問(wèn)完整論文。
當(dāng)前的人工智能模型被稱為"視覺(jué)-語(yǔ)言模型",就像是擁有眼睛和大腦的機(jī)器人,既能"看"圖片,又能"讀"文字。按理說(shuō),無(wú)論是給這些AI模型看一張國(guó)際象棋棋盤的照片,還是給它們看那串神秘的字母數(shù)字代碼,它們都應(yīng)該能得出相同的結(jié)論——因?yàn)檫@兩種表達(dá)方式本質(zhì)上傳達(dá)的是同樣的信息。然而現(xiàn)實(shí)情況并非如此簡(jiǎn)單。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:即便是最先進(jìn)的AI模型,當(dāng)面對(duì)語(yǔ)義上完全相同的信息時(shí),如果這些信息以不同的方式呈現(xiàn)(比如圖片versus文字),它們的表現(xiàn)會(huì)出現(xiàn)顯著差異。這就好比一個(gè)人看地圖很厲害,但是聽路線描述就迷糊了,明明是同一條路線,只是表達(dá)方式不同而已。
為了深入研究這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為SEAM的基準(zhǔn)測(cè)試系統(tǒng),全稱是"跨模態(tài)語(yǔ)義等價(jià)基準(zhǔn)"。這個(gè)系統(tǒng)的巧妙之處在于,它選擇了四個(gè)有著標(biāo)準(zhǔn)化符號(hào)系統(tǒng)的領(lǐng)域:國(guó)際象棋、化學(xué)、音樂(lè)和圖論。每個(gè)領(lǐng)域都有自己的"雙語(yǔ)"表達(dá)方式——既有視覺(jué)圖形,也有對(duì)應(yīng)的文字符號(hào)系統(tǒng)。
在國(guó)際象棋領(lǐng)域,除了我們熟悉的黑白格棋盤圖,還有一種叫做FEN記號(hào)的文字表示法,專業(yè)棋手經(jīng)常使用這種簡(jiǎn)潔的代碼來(lái)記錄和分析棋局。化學(xué)領(lǐng)域有分子結(jié)構(gòu)圖和SMILES字符串兩種表達(dá)方式,前者直觀地展示原子和化學(xué)鍵的空間關(guān)系,后者則用一串特殊的字符來(lái)編碼同樣的信息。音樂(lè)世界里,五線譜是我們最熟悉的視覺(jué)表示,但還有一種叫做ABC記號(hào)的文字格式,能夠用純文本記錄旋律和節(jié)奏。圖論這個(gè)數(shù)學(xué)分支既可以用節(jié)點(diǎn)和連線的圖形來(lái)表示網(wǎng)絡(luò)關(guān)系,也可以用鄰接矩陣這種數(shù)字表格來(lái)精確描述同樣的連接模式。
研究團(tuán)隊(duì)精心設(shè)計(jì)了16個(gè)具體任務(wù),每個(gè)領(lǐng)域包含4個(gè)不同類型的問(wèn)題。以國(guó)際象棋為例,他們?cè)O(shè)計(jì)了戰(zhàn)術(shù)分叉識(shí)別、合法走子判斷、謎題求解和局面評(píng)估等任務(wù)。每個(gè)任務(wù)都準(zhǔn)備了200道題目,總計(jì)3200個(gè)測(cè)試項(xiàng)目。這些題目的設(shè)計(jì)遵循一個(gè)關(guān)鍵原則:無(wú)論是看圖片還是讀文字描述,聰明的AI模型都應(yīng)該能得出相同的答案,因?yàn)樗鼈兠鎸?duì)的本質(zhì)上是同一個(gè)問(wèn)題。
當(dāng)研究團(tuán)隊(duì)用這套測(cè)試系統(tǒng)檢驗(yàn)21個(gè)當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言模型時(shí),結(jié)果令人深思。從GPT-5到Claude-4,從開源的Qwen2.5到專有的InternVL系列,幾乎所有模型都顯現(xiàn)出了明顯的"模態(tài)失衡"現(xiàn)象。簡(jiǎn)單來(lái)說(shuō),這些AI在處理文字信息時(shí)通常比處理圖片信息表現(xiàn)更好,即便這些信息在本質(zhì)上是相同的。
更有趣的是,不同領(lǐng)域的模態(tài)失衡程度并不一致。在國(guó)際象棋和化學(xué)領(lǐng)域,模型的視覺(jué)理解能力有時(shí)甚至能與文字理解能力媲美,偶爾還能略勝一籌。但是在音樂(lè)理解方面,文字輸入幾乎總是產(chǎn)生比圖片輸入更好的結(jié)果。而在圖論任務(wù)中,這種差異變得更加明顯,文字表示的鄰接矩陣比圖形化的網(wǎng)絡(luò)圖能讓AI模型表現(xiàn)得更好。
研究團(tuán)隊(duì)深入分析了造成這種現(xiàn)象的原因,發(fā)現(xiàn)了兩個(gè)主要的"罪魁禍?zhǔn)?。第一個(gè)問(wèn)題出現(xiàn)在文字理解環(huán)節(jié),具體表現(xiàn)為"分詞錯(cuò)誤"。當(dāng)AI模型試圖理解像SMILES化學(xué)式這樣的特殊符號(hào)串時(shí),它們的分詞系統(tǒng)會(huì)將這些符號(hào)切割成毫無(wú)意義的片段。就像把一個(gè)完整的化學(xué)分子式"COC(=O)C(OC(C)(C)C)c1cc"錯(cuò)誤地分解成"OC"、"cc"、"([" 等無(wú)關(guān)片段,這就好比把一個(gè)完整的電話號(hào)碼隨意分段,讓人根本無(wú)法理解原始信息。
第二個(gè)問(wèn)題存在于視覺(jué)理解過(guò)程中,表現(xiàn)為"視覺(jué)幻覺(jué)"。當(dāng)AI模型分析圖形時(shí),有時(shí)會(huì)"看到"實(shí)際上不存在的連接或元素。研究團(tuán)隊(duì)發(fā)現(xiàn),這種問(wèn)題在圖論任務(wù)中尤其明顯,當(dāng)圖形在轉(zhuǎn)換成小塊輸入給視覺(jué)系統(tǒng)時(shí),如果分割點(diǎn)恰好經(jīng)過(guò)節(jié)點(diǎn)之間的連接線,模型可能會(huì)產(chǎn)生混亂,誤認(rèn)為存在實(shí)際上并不存在的連接路徑。
為了驗(yàn)證他們的發(fā)現(xiàn)不是由視覺(jué)呈現(xiàn)的細(xì)節(jié)差異造成的,研究團(tuán)隊(duì)進(jìn)行了穩(wěn)健性測(cè)試。他們對(duì)圖片進(jìn)行了各種變換,包括分辨率調(diào)整、黑白轉(zhuǎn)換和180度旋轉(zhuǎn)等,結(jié)果發(fā)現(xiàn)這些變化對(duì)模型性能的影響微乎其微,變化幅度僅在1-3個(gè)百分點(diǎn)之間。這證明了觀察到的模態(tài)失衡確實(shí)源于深層的理解機(jī)制差異,而非表面的視覺(jué)細(xì)節(jié)問(wèn)題。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了另一個(gè)有趣現(xiàn)象:不同模型之間的"跨模態(tài)一致性"相當(dāng)?shù)?。換句話說(shuō),即便是面對(duì)語(yǔ)義相同的問(wèn)題,不同的AI模型在處理視覺(jué)信息和文字信息時(shí)經(jīng)常給出不同的答案,這種不一致性遠(yuǎn)超隨機(jī)猜測(cè)的水平。這就像幾個(gè)人看同一張地圖和聽同一個(gè)路線描述后,卻對(duì)目的地有著完全不同的理解。
更深入的分析揭示了一個(gè)令人擔(dān)憂的現(xiàn)象:即便是那些在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀的大型模型,在面對(duì)真正需要跨模態(tài)理解的任務(wù)時(shí),它們的內(nèi)部表征(可以理解為大腦中的"概念地圖")在不同模態(tài)間并沒(méi)有很好地對(duì)齊。通過(guò)可視化技術(shù),研究人員發(fā)現(xiàn),當(dāng)模型處理同一概念的視覺(jué)和文字表示時(shí),它們?cè)趦?nèi)部"大腦空間"中的位置相距甚遠(yuǎn),就像兩個(gè)本應(yīng)重合的概念被放在了完全不同的思維區(qū)域。
這項(xiàng)研究的意義遠(yuǎn)不止是發(fā)現(xiàn)了AI模型的一個(gè)技術(shù)缺陷。它揭示了當(dāng)前"多模態(tài)"人工智能的一個(gè)根本性挑戰(zhàn):真正的智能應(yīng)該能夠無(wú)縫地在不同表示形式之間轉(zhuǎn)換和推理,就像人類專家無(wú)論是看到化學(xué)結(jié)構(gòu)圖還是讀到化學(xué)式都能立刻識(shí)別出同一個(gè)分子一樣。
研究團(tuán)隊(duì)的工作為未來(lái)的AI發(fā)展指明了方向。他們建議開發(fā)針對(duì)特定領(lǐng)域的專用分詞器,以更好地處理專業(yè)符號(hào)系統(tǒng)。同時(shí),他們認(rèn)為需要改進(jìn)視覺(jué)處理機(jī)制,減少因圖像分割導(dǎo)致的信息丟失和錯(cuò)誤解釋。更重要的是,未來(lái)的AI系統(tǒng)應(yīng)該具備更強(qiáng)的跨模態(tài)轉(zhuǎn)換能力,能夠在內(nèi)部將不同形式的相同信息映射到統(tǒng)一的概念空間中。
這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是為AI評(píng)估建立了新的標(biāo)準(zhǔn)。SEAM基準(zhǔn)測(cè)試系統(tǒng)現(xiàn)在已經(jīng)公開發(fā)布,包括完整的數(shù)據(jù)集、代碼和在線排行榜,為研究社區(qū)提供了一個(gè)客觀評(píng)估模態(tài)平衡能力的工具。這就像為汽車行業(yè)建立了新的安全測(cè)試標(biāo)準(zhǔn),不僅要看車子跑得多快,還要看它在不同路況下的一致性表現(xiàn)。
從更廣闊的視角來(lái)看,這項(xiàng)研究提醒我們,真正的人工智能不應(yīng)該只是在單一任務(wù)上表現(xiàn)出色的專家,而應(yīng)該像人類一樣具備靈活的跨模態(tài)理解能力。當(dāng)我們向通用人工智能邁進(jìn)時(shí),確保AI系統(tǒng)能夠以同樣的深度和一致性理解各種形式的信息表達(dá),將是一個(gè)至關(guān)重要的里程碑。
說(shuō)到底,這項(xiàng)研究揭示了一個(gè)簡(jiǎn)單卻深刻的道理:同一件事情可以用很多種方式來(lái)表達(dá),但真正的理解應(yīng)該超越表達(dá)方式的差異,抓住事物的本質(zhì)。雖然當(dāng)前的AI模型在這方面還有很大的改進(jìn)空間,但正是這樣的研究為我們指出了前進(jìn)的方向,讓我們離真正智能的機(jī)器又近了一步。
Q&A
Q1:SEAM基準(zhǔn)測(cè)試系統(tǒng)是什么?它如何檢驗(yàn)AI模型的跨模態(tài)能力?
A:SEAM是"跨模態(tài)語(yǔ)義等價(jià)基準(zhǔn)"的簡(jiǎn)稱,由多倫多大學(xué)研究團(tuán)隊(duì)開發(fā)。它通過(guò)四個(gè)有標(biāo)準(zhǔn)化符號(hào)系統(tǒng)的領(lǐng)域(國(guó)際象棋、化學(xué)、音樂(lè)、圖論)來(lái)測(cè)試AI模型。每個(gè)領(lǐng)域都有視覺(jué)和文字兩種表達(dá)同一信息的方式,比如國(guó)際象棋棋盤圖片和FEN代碼、化學(xué)分子結(jié)構(gòu)圖和SMILES字符串。系統(tǒng)包含16個(gè)任務(wù)共3200道題目,檢驗(yàn)AI模型面對(duì)相同信息的不同表達(dá)形式時(shí)是否能給出一致答案。
Q2:為什么當(dāng)前的視覺(jué)-語(yǔ)言AI模型會(huì)出現(xiàn)模態(tài)失衡現(xiàn)象?
A:研究發(fā)現(xiàn)兩個(gè)主要原因:一是文字處理中的分詞錯(cuò)誤,AI系統(tǒng)會(huì)將專業(yè)符號(hào)串錯(cuò)誤分割成無(wú)意義片段,比如把完整的化學(xué)式分解成"OC"、"cc"等碎片;二是視覺(jué)處理中的"視覺(jué)幻覺(jué)",AI在分析圖形時(shí)可能"看到"不存在的連接,特別是當(dāng)圖像被分割成小塊輸入時(shí)容易產(chǎn)生誤解。這些問(wèn)題導(dǎo)致相同信息的不同表達(dá)形式產(chǎn)生不同的理解結(jié)果。
Q3:這項(xiàng)研究對(duì)未來(lái)AI發(fā)展有什么重要意義?
A:這項(xiàng)研究揭示了通向真正通用人工智能的關(guān)鍵挑戰(zhàn)——跨模態(tài)理解一致性。它為AI評(píng)估建立了新標(biāo)準(zhǔn),不僅要看模型在單一任務(wù)上的表現(xiàn),還要檢驗(yàn)其處理不同表達(dá)形式時(shí)的一致性。研究指出了改進(jìn)方向:開發(fā)專業(yè)領(lǐng)域的分詞器、改進(jìn)視覺(jué)處理機(jī)制、增強(qiáng)跨模態(tài)轉(zhuǎn)換能力。這對(duì)構(gòu)建真正能像人類一樣靈活理解各種信息表達(dá)的AI系統(tǒng)具有重要指導(dǎo)意義。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。