av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 多模態(tài)AI的"視力"和"文字理解"為何不在一個(gè)頻道上?多倫多大學(xué)重磅發(fā)現(xiàn)

多模態(tài)AI的"視力"和"文字理解"為何不在一個(gè)頻道上?多倫多大學(xué)重磅發(fā)現(xiàn)

2025-09-04 14:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-04 14:30 ? 科技行者

當(dāng)我們看到一張棋盤照片和一串看起來(lái)像天書一樣的字母數(shù)字組合"rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR"時(shí),可能很難相信它們其實(shí)在描述完全相同的信息——同一個(gè)國(guó)際象棋開局位置。然而,這正是多倫多大學(xué)計(jì)算機(jī)科學(xué)系的唐振偉、焦迪凡、楊布萊爾和安德森·阿什頓教授團(tuán)隊(duì)在2025年發(fā)表于COLM會(huì)議的最新研究所關(guān)注的核心問(wèn)題。這項(xiàng)發(fā)表于2025年8月的研究論文完整標(biāo)題為《SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models》,感興趣的讀者可以通過(guò)arXiv:2508.18179v1訪問(wèn)完整論文。

當(dāng)前的人工智能模型被稱為"視覺(jué)-語(yǔ)言模型",就像是擁有眼睛和大腦的機(jī)器人,既能"看"圖片,又能"讀"文字。按理說(shuō),無(wú)論是給這些AI模型看一張國(guó)際象棋棋盤的照片,還是給它們看那串神秘的字母數(shù)字代碼,它們都應(yīng)該能得出相同的結(jié)論——因?yàn)檫@兩種表達(dá)方式本質(zhì)上傳達(dá)的是同樣的信息。然而現(xiàn)實(shí)情況并非如此簡(jiǎn)單。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:即便是最先進(jìn)的AI模型,當(dāng)面對(duì)語(yǔ)義上完全相同的信息時(shí),如果這些信息以不同的方式呈現(xiàn)(比如圖片versus文字),它們的表現(xiàn)會(huì)出現(xiàn)顯著差異。這就好比一個(gè)人看地圖很厲害,但是聽路線描述就迷糊了,明明是同一條路線,只是表達(dá)方式不同而已。

為了深入研究這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為SEAM的基準(zhǔn)測(cè)試系統(tǒng),全稱是"跨模態(tài)語(yǔ)義等價(jià)基準(zhǔn)"。這個(gè)系統(tǒng)的巧妙之處在于,它選擇了四個(gè)有著標(biāo)準(zhǔn)化符號(hào)系統(tǒng)的領(lǐng)域:國(guó)際象棋、化學(xué)、音樂(lè)和圖論。每個(gè)領(lǐng)域都有自己的"雙語(yǔ)"表達(dá)方式——既有視覺(jué)圖形,也有對(duì)應(yīng)的文字符號(hào)系統(tǒng)。

在國(guó)際象棋領(lǐng)域,除了我們熟悉的黑白格棋盤圖,還有一種叫做FEN記號(hào)的文字表示法,專業(yè)棋手經(jīng)常使用這種簡(jiǎn)潔的代碼來(lái)記錄和分析棋局。化學(xué)領(lǐng)域有分子結(jié)構(gòu)圖和SMILES字符串兩種表達(dá)方式,前者直觀地展示原子和化學(xué)鍵的空間關(guān)系,后者則用一串特殊的字符來(lái)編碼同樣的信息。音樂(lè)世界里,五線譜是我們最熟悉的視覺(jué)表示,但還有一種叫做ABC記號(hào)的文字格式,能夠用純文本記錄旋律和節(jié)奏。圖論這個(gè)數(shù)學(xué)分支既可以用節(jié)點(diǎn)和連線的圖形來(lái)表示網(wǎng)絡(luò)關(guān)系,也可以用鄰接矩陣這種數(shù)字表格來(lái)精確描述同樣的連接模式。

研究團(tuán)隊(duì)精心設(shè)計(jì)了16個(gè)具體任務(wù),每個(gè)領(lǐng)域包含4個(gè)不同類型的問(wèn)題。以國(guó)際象棋為例,他們?cè)O(shè)計(jì)了戰(zhàn)術(shù)分叉識(shí)別、合法走子判斷、謎題求解和局面評(píng)估等任務(wù)。每個(gè)任務(wù)都準(zhǔn)備了200道題目,總計(jì)3200個(gè)測(cè)試項(xiàng)目。這些題目的設(shè)計(jì)遵循一個(gè)關(guān)鍵原則:無(wú)論是看圖片還是讀文字描述,聰明的AI模型都應(yīng)該能得出相同的答案,因?yàn)樗鼈兠鎸?duì)的本質(zhì)上是同一個(gè)問(wèn)題。

當(dāng)研究團(tuán)隊(duì)用這套測(cè)試系統(tǒng)檢驗(yàn)21個(gè)當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言模型時(shí),結(jié)果令人深思。從GPT-5到Claude-4,從開源的Qwen2.5到專有的InternVL系列,幾乎所有模型都顯現(xiàn)出了明顯的"模態(tài)失衡"現(xiàn)象。簡(jiǎn)單來(lái)說(shuō),這些AI在處理文字信息時(shí)通常比處理圖片信息表現(xiàn)更好,即便這些信息在本質(zhì)上是相同的。

更有趣的是,不同領(lǐng)域的模態(tài)失衡程度并不一致。在國(guó)際象棋和化學(xué)領(lǐng)域,模型的視覺(jué)理解能力有時(shí)甚至能與文字理解能力媲美,偶爾還能略勝一籌。但是在音樂(lè)理解方面,文字輸入幾乎總是產(chǎn)生比圖片輸入更好的結(jié)果。而在圖論任務(wù)中,這種差異變得更加明顯,文字表示的鄰接矩陣比圖形化的網(wǎng)絡(luò)圖能讓AI模型表現(xiàn)得更好。

研究團(tuán)隊(duì)深入分析了造成這種現(xiàn)象的原因,發(fā)現(xiàn)了兩個(gè)主要的"罪魁禍?zhǔn)?。第一個(gè)問(wèn)題出現(xiàn)在文字理解環(huán)節(jié),具體表現(xiàn)為"分詞錯(cuò)誤"。當(dāng)AI模型試圖理解像SMILES化學(xué)式這樣的特殊符號(hào)串時(shí),它們的分詞系統(tǒng)會(huì)將這些符號(hào)切割成毫無(wú)意義的片段。就像把一個(gè)完整的化學(xué)分子式"COC(=O)C(OC(C)(C)C)c1cc"錯(cuò)誤地分解成"OC"、"cc"、"([" 等無(wú)關(guān)片段,這就好比把一個(gè)完整的電話號(hào)碼隨意分段,讓人根本無(wú)法理解原始信息。

第二個(gè)問(wèn)題存在于視覺(jué)理解過(guò)程中,表現(xiàn)為"視覺(jué)幻覺(jué)"。當(dāng)AI模型分析圖形時(shí),有時(shí)會(huì)"看到"實(shí)際上不存在的連接或元素。研究團(tuán)隊(duì)發(fā)現(xiàn),這種問(wèn)題在圖論任務(wù)中尤其明顯,當(dāng)圖形在轉(zhuǎn)換成小塊輸入給視覺(jué)系統(tǒng)時(shí),如果分割點(diǎn)恰好經(jīng)過(guò)節(jié)點(diǎn)之間的連接線,模型可能會(huì)產(chǎn)生混亂,誤認(rèn)為存在實(shí)際上并不存在的連接路徑。

為了驗(yàn)證他們的發(fā)現(xiàn)不是由視覺(jué)呈現(xiàn)的細(xì)節(jié)差異造成的,研究團(tuán)隊(duì)進(jìn)行了穩(wěn)健性測(cè)試。他們對(duì)圖片進(jìn)行了各種變換,包括分辨率調(diào)整、黑白轉(zhuǎn)換和180度旋轉(zhuǎn)等,結(jié)果發(fā)現(xiàn)這些變化對(duì)模型性能的影響微乎其微,變化幅度僅在1-3個(gè)百分點(diǎn)之間。這證明了觀察到的模態(tài)失衡確實(shí)源于深層的理解機(jī)制差異,而非表面的視覺(jué)細(xì)節(jié)問(wèn)題。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了另一個(gè)有趣現(xiàn)象:不同模型之間的"跨模態(tài)一致性"相當(dāng)?shù)?。換句話說(shuō),即便是面對(duì)語(yǔ)義相同的問(wèn)題,不同的AI模型在處理視覺(jué)信息和文字信息時(shí)經(jīng)常給出不同的答案,這種不一致性遠(yuǎn)超隨機(jī)猜測(cè)的水平。這就像幾個(gè)人看同一張地圖和聽同一個(gè)路線描述后,卻對(duì)目的地有著完全不同的理解。

更深入的分析揭示了一個(gè)令人擔(dān)憂的現(xiàn)象:即便是那些在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀的大型模型,在面對(duì)真正需要跨模態(tài)理解的任務(wù)時(shí),它們的內(nèi)部表征(可以理解為大腦中的"概念地圖")在不同模態(tài)間并沒(méi)有很好地對(duì)齊。通過(guò)可視化技術(shù),研究人員發(fā)現(xiàn),當(dāng)模型處理同一概念的視覺(jué)和文字表示時(shí),它們?cè)趦?nèi)部"大腦空間"中的位置相距甚遠(yuǎn),就像兩個(gè)本應(yīng)重合的概念被放在了完全不同的思維區(qū)域。

這項(xiàng)研究的意義遠(yuǎn)不止是發(fā)現(xiàn)了AI模型的一個(gè)技術(shù)缺陷。它揭示了當(dāng)前"多模態(tài)"人工智能的一個(gè)根本性挑戰(zhàn):真正的智能應(yīng)該能夠無(wú)縫地在不同表示形式之間轉(zhuǎn)換和推理,就像人類專家無(wú)論是看到化學(xué)結(jié)構(gòu)圖還是讀到化學(xué)式都能立刻識(shí)別出同一個(gè)分子一樣。

研究團(tuán)隊(duì)的工作為未來(lái)的AI發(fā)展指明了方向。他們建議開發(fā)針對(duì)特定領(lǐng)域的專用分詞器,以更好地處理專業(yè)符號(hào)系統(tǒng)。同時(shí),他們認(rèn)為需要改進(jìn)視覺(jué)處理機(jī)制,減少因圖像分割導(dǎo)致的信息丟失和錯(cuò)誤解釋。更重要的是,未來(lái)的AI系統(tǒng)應(yīng)該具備更強(qiáng)的跨模態(tài)轉(zhuǎn)換能力,能夠在內(nèi)部將不同形式的相同信息映射到統(tǒng)一的概念空間中。

這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是為AI評(píng)估建立了新的標(biāo)準(zhǔn)。SEAM基準(zhǔn)測(cè)試系統(tǒng)現(xiàn)在已經(jīng)公開發(fā)布,包括完整的數(shù)據(jù)集、代碼和在線排行榜,為研究社區(qū)提供了一個(gè)客觀評(píng)估模態(tài)平衡能力的工具。這就像為汽車行業(yè)建立了新的安全測(cè)試標(biāo)準(zhǔn),不僅要看車子跑得多快,還要看它在不同路況下的一致性表現(xiàn)。

從更廣闊的視角來(lái)看,這項(xiàng)研究提醒我們,真正的人工智能不應(yīng)該只是在單一任務(wù)上表現(xiàn)出色的專家,而應(yīng)該像人類一樣具備靈活的跨模態(tài)理解能力。當(dāng)我們向通用人工智能邁進(jìn)時(shí),確保AI系統(tǒng)能夠以同樣的深度和一致性理解各種形式的信息表達(dá),將是一個(gè)至關(guān)重要的里程碑。

說(shuō)到底,這項(xiàng)研究揭示了一個(gè)簡(jiǎn)單卻深刻的道理:同一件事情可以用很多種方式來(lái)表達(dá),但真正的理解應(yīng)該超越表達(dá)方式的差異,抓住事物的本質(zhì)。雖然當(dāng)前的AI模型在這方面還有很大的改進(jìn)空間,但正是這樣的研究為我們指出了前進(jìn)的方向,讓我們離真正智能的機(jī)器又近了一步。

Q&A

Q1:SEAM基準(zhǔn)測(cè)試系統(tǒng)是什么?它如何檢驗(yàn)AI模型的跨模態(tài)能力?

A:SEAM是"跨模態(tài)語(yǔ)義等價(jià)基準(zhǔn)"的簡(jiǎn)稱,由多倫多大學(xué)研究團(tuán)隊(duì)開發(fā)。它通過(guò)四個(gè)有標(biāo)準(zhǔn)化符號(hào)系統(tǒng)的領(lǐng)域(國(guó)際象棋、化學(xué)、音樂(lè)、圖論)來(lái)測(cè)試AI模型。每個(gè)領(lǐng)域都有視覺(jué)和文字兩種表達(dá)同一信息的方式,比如國(guó)際象棋棋盤圖片和FEN代碼、化學(xué)分子結(jié)構(gòu)圖和SMILES字符串。系統(tǒng)包含16個(gè)任務(wù)共3200道題目,檢驗(yàn)AI模型面對(duì)相同信息的不同表達(dá)形式時(shí)是否能給出一致答案。

Q2:為什么當(dāng)前的視覺(jué)-語(yǔ)言AI模型會(huì)出現(xiàn)模態(tài)失衡現(xiàn)象?

A:研究發(fā)現(xiàn)兩個(gè)主要原因:一是文字處理中的分詞錯(cuò)誤,AI系統(tǒng)會(huì)將專業(yè)符號(hào)串錯(cuò)誤分割成無(wú)意義片段,比如把完整的化學(xué)式分解成"OC"、"cc"等碎片;二是視覺(jué)處理中的"視覺(jué)幻覺(jué)",AI在分析圖形時(shí)可能"看到"不存在的連接,特別是當(dāng)圖像被分割成小塊輸入時(shí)容易產(chǎn)生誤解。這些問(wèn)題導(dǎo)致相同信息的不同表達(dá)形式產(chǎn)生不同的理解結(jié)果。

Q3:這項(xiàng)研究對(duì)未來(lái)AI發(fā)展有什么重要意義?

A:這項(xiàng)研究揭示了通向真正通用人工智能的關(guān)鍵挑戰(zhàn)——跨模態(tài)理解一致性。它為AI評(píng)估建立了新標(biāo)準(zhǔn),不僅要看模型在單一任務(wù)上的表現(xiàn),還要檢驗(yàn)其處理不同表達(dá)形式時(shí)的一致性。研究指出了改進(jìn)方向:開發(fā)專業(yè)領(lǐng)域的分詞器、改進(jìn)視覺(jué)處理機(jī)制、增強(qiáng)跨模態(tài)轉(zhuǎn)換能力。這對(duì)構(gòu)建真正能像人類一樣靈活理解各種信息表達(dá)的AI系統(tǒng)具有重要指導(dǎo)意義。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-