av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="ykmdp"><track id="ykmdp"></track></cite>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

多模態(tài)AI的"視力"和"文字理解"為何不在一個(gè)頻道上？多倫多大學(xué)重磅發(fā)現(xiàn)

人工智能多模態(tài)理解基準(zhǔn)測(cè)試

多模態(tài)AI的"視力"和"文字理解"為何不在一個(gè)頻道上？多倫多大學(xué)重磅發(fā)現(xiàn)

作者：科技行者

2025-09-04 14:30

分享至：

多倫多大學(xué)研究團(tuán)隊(duì)通過(guò)開發(fā)SEAM基準(zhǔn)測(cè)試系統(tǒng)，發(fā)現(xiàn)當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言AI模型存在顯著的"模態(tài)失衡"現(xiàn)象。即便面對(duì)語(yǔ)義完全相同的信息，這些模型在處理視覺(jué)輸入和文字輸入時(shí)表現(xiàn)差異明顯。研究涵蓋國(guó)際象棋、化學(xué)、音樂(lè)、圖論四個(gè)領(lǐng)域，測(cè)試了21個(gè)主流模型，揭示了分詞錯(cuò)誤和視覺(jué)幻覺(jué)兩大根本原因。這項(xiàng)工作為評(píng)估和改進(jìn)AI跨模態(tài)理解能力提供了重要基準(zhǔn)，對(duì)推進(jìn)通用人工智能發(fā)展具有重要意義。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-04 14:30 ? 科技行者

當(dāng)我們看到一張棋盤照片和一串看起來(lái)像天書一樣的字母數(shù)字組合"rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR"時(shí)，可能很難相信它們其實(shí)在描述完全相同的信息——同一個(gè)國(guó)際象棋開局位置。然而，這正是多倫多大學(xué)計(jì)算機(jī)科學(xué)系的唐振偉、焦迪凡、楊布萊爾和安德森·阿什頓教授團(tuán)隊(duì)在2025年發(fā)表于COLM會(huì)議的最新研究所關(guān)注的核心問(wèn)題。這項(xiàng)發(fā)表于2025年8月的研究論文完整標(biāo)題為《SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models》，感興趣的讀者可以通過(guò)arXiv:2508.18179v1訪問(wèn)完整論文。

當(dāng)前的人工智能模型被稱為"視覺(jué)-語(yǔ)言模型"，就像是擁有眼睛和大腦的機(jī)器人，既能"看"圖片，又能"讀"文字。按理說(shuō)，無(wú)論是給這些AI模型看一張國(guó)際象棋棋盤的照片，還是給它們看那串神秘的字母數(shù)字代碼，它們都應(yīng)該能得出相同的結(jié)論——因?yàn)檫@兩種表達(dá)方式本質(zhì)上傳達(dá)的是同樣的信息。然而現(xiàn)實(shí)情況并非如此簡(jiǎn)單。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象：即便是最先進(jìn)的AI模型，當(dāng)面對(duì)語(yǔ)義上完全相同的信息時(shí)，如果這些信息以不同的方式呈現(xiàn)（比如圖片versus文字），它們的表現(xiàn)會(huì)出現(xiàn)顯著差異。這就好比一個(gè)人看地圖很厲害，但是聽路線描述就迷糊了，明明是同一條路線，只是表達(dá)方式不同而已。

為了深入研究這個(gè)問(wèn)題，研究團(tuán)隊(duì)開發(fā)了一個(gè)名為SEAM的基準(zhǔn)測(cè)試系統(tǒng)，全稱是"跨模態(tài)語(yǔ)義等價(jià)基準(zhǔn)"。這個(gè)系統(tǒng)的巧妙之處在于，它選擇了四個(gè)有著標(biāo)準(zhǔn)化符號(hào)系統(tǒng)的領(lǐng)域：國(guó)際象棋、化學(xué)、音樂(lè)和圖論。每個(gè)領(lǐng)域都有自己的"雙語(yǔ)"表達(dá)方式——既有視覺(jué)圖形，也有對(duì)應(yīng)的文字符號(hào)系統(tǒng)。

在國(guó)際象棋領(lǐng)域，除了我們熟悉的黑白格棋盤圖，還有一種叫做FEN記號(hào)的文字表示法，專業(yè)棋手經(jīng)常使用這種簡(jiǎn)潔的代碼來(lái)記錄和分析棋局。化學(xué)領(lǐng)域有分子結(jié)構(gòu)圖和SMILES字符串兩種表達(dá)方式，前者直觀地展示原子和化學(xué)鍵的空間關(guān)系，后者則用一串特殊的字符來(lái)編碼同樣的信息。音樂(lè)世界里，五線譜是我們最熟悉的視覺(jué)表示，但還有一種叫做ABC記號(hào)的文字格式，能夠用純文本記錄旋律和節(jié)奏。圖論這個(gè)數(shù)學(xué)分支既可以用節(jié)點(diǎn)和連線的圖形來(lái)表示網(wǎng)絡(luò)關(guān)系，也可以用鄰接矩陣這種數(shù)字表格來(lái)精確描述同樣的連接模式。

研究團(tuán)隊(duì)精心設(shè)計(jì)了16個(gè)具體任務(wù)，每個(gè)領(lǐng)域包含4個(gè)不同類型的問(wèn)題。以國(guó)際象棋為例，他們?cè)O(shè)計(jì)了戰(zhàn)術(shù)分叉識(shí)別、合法走子判斷、謎題求解和局面評(píng)估等任務(wù)。每個(gè)任務(wù)都準(zhǔn)備了200道題目，總計(jì)3200個(gè)測(cè)試項(xiàng)目。這些題目的設(shè)計(jì)遵循一個(gè)關(guān)鍵原則：無(wú)論是看圖片還是讀文字描述，聰明的AI模型都應(yīng)該能得出相同的答案，因?yàn)樗鼈兠鎸?duì)的本質(zhì)上是同一個(gè)問(wèn)題。

當(dāng)研究團(tuán)隊(duì)用這套測(cè)試系統(tǒng)檢驗(yàn)21個(gè)當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言模型時(shí)，結(jié)果令人深思。從GPT-5到Claude-4，從開源的Qwen2.5到專有的InternVL系列，幾乎所有模型都顯現(xiàn)出了明顯的"模態(tài)失衡"現(xiàn)象。簡(jiǎn)單來(lái)說(shuō)，這些AI在處理文字信息時(shí)通常比處理圖片信息表現(xiàn)更好，即便這些信息在本質(zhì)上是相同的。

更有趣的是，不同領(lǐng)域的模態(tài)失衡程度并不一致。在國(guó)際象棋和化學(xué)領(lǐng)域，模型的視覺(jué)理解能力有時(shí)甚至能與文字理解能力媲美，偶爾還能略勝一籌。但是在音樂(lè)理解方面，文字輸入幾乎總是產(chǎn)生比圖片輸入更好的結(jié)果。而在圖論任務(wù)中，這種差異變得更加明顯，文字表示的鄰接矩陣比圖形化的網(wǎng)絡(luò)圖能讓AI模型表現(xiàn)得更好。

研究團(tuán)隊(duì)深入分析了造成這種現(xiàn)象的原因，發(fā)現(xiàn)了兩個(gè)主要的"罪魁禍?zhǔn)?。第一個(gè)問(wèn)題出現(xiàn)在文字理解環(huán)節(jié)，具體表現(xiàn)為"分詞錯(cuò)誤"。當(dāng)AI模型試圖理解像SMILES化學(xué)式這樣的特殊符號(hào)串時(shí)，它們的分詞系統(tǒng)會(huì)將這些符號(hào)切割成毫無(wú)意義的片段。就像把一個(gè)完整的化學(xué)分子式"COC(=O)C(OC(C)(C)C)c1cc"錯(cuò)誤地分解成"OC"、"cc"、"([" 等無(wú)關(guān)片段，這就好比把一個(gè)完整的電話號(hào)碼隨意分段，讓人根本無(wú)法理解原始信息。

第二個(gè)問(wèn)題存在于視覺(jué)理解過(guò)程中，表現(xiàn)為"視覺(jué)幻覺(jué)"。當(dāng)AI模型分析圖形時(shí)，有時(shí)會(huì)"看到"實(shí)際上不存在的連接或元素。研究團(tuán)隊(duì)發(fā)現(xiàn)，這種問(wèn)題在圖論任務(wù)中尤其明顯，當(dāng)圖形在轉(zhuǎn)換成小塊輸入給視覺(jué)系統(tǒng)時(shí)，如果分割點(diǎn)恰好經(jīng)過(guò)節(jié)點(diǎn)之間的連接線，模型可能會(huì)產(chǎn)生混亂，誤認(rèn)為存在實(shí)際上并不存在的連接路徑。

為了驗(yàn)證他們的發(fā)現(xiàn)不是由視覺(jué)呈現(xiàn)的細(xì)節(jié)差異造成的，研究團(tuán)隊(duì)進(jìn)行了穩(wěn)健性測(cè)試。他們對(duì)圖片進(jìn)行了各種變換，包括分辨率調(diào)整、黑白轉(zhuǎn)換和180度旋轉(zhuǎn)等，結(jié)果發(fā)現(xiàn)這些變化對(duì)模型性能的影響微乎其微，變化幅度僅在1-3個(gè)百分點(diǎn)之間。這證明了觀察到的模態(tài)失衡確實(shí)源于深層的理解機(jī)制差異，而非表面的視覺(jué)細(xì)節(jié)問(wèn)題。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了另一個(gè)有趣現(xiàn)象：不同模型之間的"跨模態(tài)一致性"相當(dāng)?shù)?。換句話說(shuō)，即便是面對(duì)語(yǔ)義相同的問(wèn)題，不同的AI模型在處理視覺(jué)信息和文字信息時(shí)經(jīng)常給出不同的答案，這種不一致性遠(yuǎn)超隨機(jī)猜測(cè)的水平。這就像幾個(gè)人看同一張地圖和聽同一個(gè)路線描述后，卻對(duì)目的地有著完全不同的理解。

更深入的分析揭示了一個(gè)令人擔(dān)憂的現(xiàn)象：即便是那些在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀的大型模型，在面對(duì)真正需要跨模態(tài)理解的任務(wù)時(shí)，它們的內(nèi)部表征（可以理解為大腦中的"概念地圖"）在不同模態(tài)間并沒(méi)有很好地對(duì)齊。通過(guò)可視化技術(shù)，研究人員發(fā)現(xiàn)，當(dāng)模型處理同一概念的視覺(jué)和文字表示時(shí)，它們?cè)趦?nèi)部"大腦空間"中的位置相距甚遠(yuǎn)，就像兩個(gè)本應(yīng)重合的概念被放在了完全不同的思維區(qū)域。

這項(xiàng)研究的意義遠(yuǎn)不止是發(fā)現(xiàn)了AI模型的一個(gè)技術(shù)缺陷。它揭示了當(dāng)前"多模態(tài)"人工智能的一個(gè)根本性挑戰(zhàn)：真正的智能應(yīng)該能夠無(wú)縫地在不同表示形式之間轉(zhuǎn)換和推理，就像人類專家無(wú)論是看到化學(xué)結(jié)構(gòu)圖還是讀到化學(xué)式都能立刻識(shí)別出同一個(gè)分子一樣。

研究團(tuán)隊(duì)的工作為未來(lái)的AI發(fā)展指明了方向。他們建議開發(fā)針對(duì)特定領(lǐng)域的專用分詞器，以更好地處理專業(yè)符號(hào)系統(tǒng)。同時(shí)，他們認(rèn)為需要改進(jìn)視覺(jué)處理機(jī)制，減少因圖像分割導(dǎo)致的信息丟失和錯(cuò)誤解釋。更重要的是，未來(lái)的AI系統(tǒng)應(yīng)該具備更強(qiáng)的跨模態(tài)轉(zhuǎn)換能力，能夠在內(nèi)部將不同形式的相同信息映射到統(tǒng)一的概念空間中。

這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是為AI評(píng)估建立了新的標(biāo)準(zhǔn)。SEAM基準(zhǔn)測(cè)試系統(tǒng)現(xiàn)在已經(jīng)公開發(fā)布，包括完整的數(shù)據(jù)集、代碼和在線排行榜，為研究社區(qū)提供了一個(gè)客觀評(píng)估模態(tài)平衡能力的工具。這就像為汽車行業(yè)建立了新的安全測(cè)試標(biāo)準(zhǔn)，不僅要看車子跑得多快，還要看它在不同路況下的一致性表現(xiàn)。

從更廣闊的視角來(lái)看，這項(xiàng)研究提醒我們，真正的人工智能不應(yīng)該只是在單一任務(wù)上表現(xiàn)出色的專家，而應(yīng)該像人類一樣具備靈活的跨模態(tài)理解能力。當(dāng)我們向通用人工智能邁進(jìn)時(shí)，確保AI系統(tǒng)能夠以同樣的深度和一致性理解各種形式的信息表達(dá)，將是一個(gè)至關(guān)重要的里程碑。

說(shuō)到底，這項(xiàng)研究揭示了一個(gè)簡(jiǎn)單卻深刻的道理：同一件事情可以用很多種方式來(lái)表達(dá)，但真正的理解應(yīng)該超越表達(dá)方式的差異，抓住事物的本質(zhì)。雖然當(dāng)前的AI模型在這方面還有很大的改進(jìn)空間，但正是這樣的研究為我們指出了前進(jìn)的方向，讓我們離真正智能的機(jī)器又近了一步。

Q&A

Q1：SEAM基準(zhǔn)測(cè)試系統(tǒng)是什么？它如何檢驗(yàn)AI模型的跨模態(tài)能力？

A：SEAM是"跨模態(tài)語(yǔ)義等價(jià)基準(zhǔn)"的簡(jiǎn)稱，由多倫多大學(xué)研究團(tuán)隊(duì)開發(fā)。它通過(guò)四個(gè)有標(biāo)準(zhǔn)化符號(hào)系統(tǒng)的領(lǐng)域（國(guó)際象棋、化學(xué)、音樂(lè)、圖論）來(lái)測(cè)試AI模型。每個(gè)領(lǐng)域都有視覺(jué)和文字兩種表達(dá)同一信息的方式，比如國(guó)際象棋棋盤圖片和FEN代碼、化學(xué)分子結(jié)構(gòu)圖和SMILES字符串。系統(tǒng)包含16個(gè)任務(wù)共3200道題目，檢驗(yàn)AI模型面對(duì)相同信息的不同表達(dá)形式時(shí)是否能給出一致答案。

Q2：為什么當(dāng)前的視覺(jué)-語(yǔ)言AI模型會(huì)出現(xiàn)模態(tài)失衡現(xiàn)象？

A：研究發(fā)現(xiàn)兩個(gè)主要原因：一是文字處理中的分詞錯(cuò)誤，AI系統(tǒng)會(huì)將專業(yè)符號(hào)串錯(cuò)誤分割成無(wú)意義片段，比如把完整的化學(xué)式分解成"OC"、"cc"等碎片；二是視覺(jué)處理中的"視覺(jué)幻覺(jué)"，AI在分析圖形時(shí)可能"看到"不存在的連接，特別是當(dāng)圖像被分割成小塊輸入時(shí)容易產(chǎn)生誤解。這些問(wèn)題導(dǎo)致相同信息的不同表達(dá)形式產(chǎn)生不同的理解結(jié)果。

Q3：這項(xiàng)研究對(duì)未來(lái)AI發(fā)展有什么重要意義？

A：這項(xiàng)研究揭示了通向真正通用人工智能的關(guān)鍵挑戰(zhàn)——跨模態(tài)理解一致性。它為AI評(píng)估建立了新標(biāo)準(zhǔn)，不僅要看模型在單一任務(wù)上的表現(xiàn)，還要檢驗(yàn)其處理不同表達(dá)形式時(shí)的一致性。研究指出了改進(jìn)方向：開發(fā)專業(yè)領(lǐng)域的分詞器、改進(jìn)視覺(jué)處理機(jī)制、增強(qiáng)跨模態(tài)轉(zhuǎn)換能力。這對(duì)構(gòu)建真正能像人類一樣靈活理解各種信息表達(dá)的AI系統(tǒng)具有重要指導(dǎo)意義。

人工智能多模態(tài)理解基準(zhǔn)測(cè)試

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<style id="uxhrg"></style>

<style id="uxhrg"></style>

^{<sub id="uxhrg"></sub>}

<legend id="uxhrg"><track id="uxhrg"></track></legend>