這項(xiàng)由韓國科技院(KAIST)的鄧維祥、沃安等研究員合作完成的研究發(fā)表于2025年8月,研究成果以論文形式呈現(xiàn),感興趣的讀者可以通過arXiv:2508.13680訪問完整論文。這是首次針對(duì)視覺語言模型在越南語多模態(tài)教育內(nèi)容上的綜合性評(píng)估研究。
想象一下,你正在參加一場特殊的考試比賽。參賽選手不是普通的學(xué)生,而是那些號(hào)稱"無所不知"的人工智能系統(tǒng),比如GPT-4和Claude等知名AI助手??荚噧?nèi)容也很特別——全部是越南語的考試題目,而且每道題都包含圖表、圖片或示意圖,需要同時(shí)理解文字和圖像才能答對(duì)。
這場"AI大考"的設(shè)計(jì)者就是韓國科技院的研究團(tuán)隊(duì)。他們想要回答一個(gè)有趣而重要的問題:這些在英語世界表現(xiàn)出色的AI系統(tǒng),面對(duì)越南語的多模態(tài)考試題時(shí),到底能考多少分?
考慮到越南語是全世界第十大使用人數(shù)最多的語言,擁有超過1億母語使用者,這個(gè)問題的答案顯然具有重要意義。更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的測試基準(zhǔn)存在明顯不足。比如一些聲稱包含越南語多模態(tài)題目的數(shù)據(jù)集,實(shí)際上要么把所有圖像內(nèi)容都轉(zhuǎn)換成了純文字,要么所謂的"多模態(tài)題目"只是文字題目的截圖而已,根本不需要真正的圖文理解能力。
為了創(chuàng)建一個(gè)真正有挑戰(zhàn)性的測試環(huán)境,研究團(tuán)隊(duì)構(gòu)建了ViExam數(shù)據(jù)集。這就像是為AI準(zhǔn)備了一場越南版的"高考",包含2548道精心篩選的多模態(tài)題目,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、駕駛考試和智力測驗(yàn)七個(gè)領(lǐng)域。每道題目都包含需要同時(shí)理解的圖像和越南語文字,就像真實(shí)的考試情境一樣。
數(shù)據(jù)收集的過程頗具挑戰(zhàn)性。研究團(tuán)隊(duì)使用自動(dòng)化網(wǎng)絡(luò)爬蟲從越南教育網(wǎng)站收集考試材料,然后通過復(fù)雜的圖像處理算法自動(dòng)識(shí)別哪些題目真正包含有意義的圖像元素,而不只是文字的截圖。接著,他們開發(fā)了一套基于網(wǎng)頁的審核系統(tǒng),由三名越南語母語使用者對(duì)每道題目進(jìn)行人工驗(yàn)證,確保題目質(zhì)量和答案準(zhǔn)確性。
研究結(jié)果讓人頗感意外。當(dāng)前最先進(jìn)的AI系統(tǒng)在這場"越南語大考"中的表現(xiàn)遠(yuǎn)不如預(yù)期??傮w而言,頂級(jí)AI模型的平均準(zhǔn)確率只有57.74%,而普通的越南學(xué)生平均能達(dá)到66.54%的正確率。這意味著大多數(shù)AI系統(tǒng)的表現(xiàn)還不如人類考生的平均水平。
更有趣的是,不同AI系統(tǒng)之間的表現(xiàn)差異巨大。OpenAI最新的"思維鏈"模型o3表現(xiàn)最佳,達(dá)到了74.07%的準(zhǔn)確率,成為唯一超過人類平均水平的AI系統(tǒng)。相比之下,開源的AI模型表現(xiàn)普遍較差,平均準(zhǔn)確率只有27.70%,與閉源商業(yè)模型之間存在近30個(gè)百分點(diǎn)的巨大差距。
通過深入分析,研究團(tuán)隊(duì)揭示了幾個(gè)有趣的現(xiàn)象。首先,AI系統(tǒng)在不同學(xué)科上的表現(xiàn)差異明顯。地理題目對(duì)AI來說相對(duì)簡單,準(zhǔn)確率達(dá)到72.81%,這主要是因?yàn)榈乩眍}目經(jīng)常包含直觀的圖表和數(shù)據(jù),只需要讀取和比較信息即可。相反,物理題目最為困難,準(zhǔn)確率僅為44.60%,因?yàn)檫@些題目需要復(fù)雜的圖形解讀和物理概念理解。
令人困惑的是,AI系統(tǒng)在回答錯(cuò)誤時(shí)表現(xiàn)出明顯的選擇偏向。當(dāng)面對(duì)多選題時(shí),所有AI模型都傾向于選擇B選項(xiàng),頻率達(dá)到31.09%,遠(yuǎn)高于隨機(jī)選擇應(yīng)有的25%。這種偏向可能源于訓(xùn)練數(shù)據(jù)中B選項(xiàng)作為正確答案的頻率較高,揭示了AI訓(xùn)練過程中的隱含偏見。
研究團(tuán)隊(duì)還進(jìn)行了一系列對(duì)照實(shí)驗(yàn)來理解AI失敗的原因。他們發(fā)現(xiàn),當(dāng)把越南語的多模態(tài)題目改為純文字題目時(shí),AI的表現(xiàn)明顯提升,平均準(zhǔn)確率從61.19%上升到70.60%。這說明真正的挑戰(zhàn)不在于越南語本身,而在于圖文信息的綜合理解。
為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)測試了AI的越南語文字識(shí)別能力。結(jié)果顯示,所有主流AI系統(tǒng)都能很好地識(shí)別越南語文字,字符錯(cuò)誤率只有6.68%,詞錯(cuò)誤率為9.32%。這證明AI的困難確實(shí)在于多模態(tài)推理,而非基礎(chǔ)的文字識(shí)別。
一個(gè)有趣的發(fā)現(xiàn)是,用英語提示詞來詢問越南語題目并不能改善AI的表現(xiàn)。對(duì)于頂級(jí)的商業(yè)AI模型,英語提示反而會(huì)略微降低準(zhǔn)確率約1個(gè)百分點(diǎn),而對(duì)開源模型則有約2.9個(gè)百分點(diǎn)的提升。這種差異可能反映了不同AI系統(tǒng)在多語言處理方面的架構(gòu)差異。
研究團(tuán)隊(duì)還探索了"人機(jī)協(xié)作"的可能性。當(dāng)人類專家?guī)椭鶤I系統(tǒng)處理圖像內(nèi)容,提供更準(zhǔn)確的圖像描述和文字識(shí)別結(jié)果時(shí),AI的表現(xiàn)確實(shí)有所改善,準(zhǔn)確率提升了約5.71個(gè)百分點(diǎn)。這暗示了未來AI系統(tǒng)的一個(gè)發(fā)展方向:不是完全替代人類,而是與人類形成更有效的協(xié)作關(guān)系。
駕駛考試題目提供了另一個(gè)有趣的觀察角度。雖然這些題目對(duì)人類來說相對(duì)簡單,涉及的都是基本的交通規(guī)則和標(biāo)志識(shí)別,但AI系統(tǒng)的準(zhǔn)確率只有67.51%,遠(yuǎn)低于人類駕駛員應(yīng)該達(dá)到的水平。這種表現(xiàn)差異可能源于AI對(duì)特定文化背景下的交通規(guī)則理解不足,也反映了AI在處理需要常識(shí)性判斷的實(shí)際場景時(shí)的局限性。
智力測驗(yàn)題目同樣具有挑戰(zhàn)性。這類題目主要測試抽象推理和模式識(shí)別能力,AI系統(tǒng)的平均準(zhǔn)確率為47.08%。有趣的是,這個(gè)分?jǐn)?shù)接近隨機(jī)猜測的水平,說明當(dāng)前的AI系統(tǒng)在處理需要深度抽象思維的問題時(shí)仍有很大改進(jìn)空間。
開源AI模型與商業(yè)模型之間的巨大性能差距值得特別關(guān)注。表現(xiàn)最好的開源模型Qwen 2.5 VL 72B的準(zhǔn)確率為41.77%,仍然遠(yuǎn)低于表現(xiàn)最差的商業(yè)模型Claude 4.0的48.28%。這種差距不僅反映了計(jì)算資源和訓(xùn)練數(shù)據(jù)的差異,也暗示了多語言多模態(tài)能力的開發(fā)需要更多的技術(shù)積累和資源投入。
從更廣的角度來看,這項(xiàng)研究揭示了AI發(fā)展中的一個(gè)重要問題:語言和文化的多樣性。雖然當(dāng)前的AI系統(tǒng)在英語環(huán)境下表現(xiàn)出色,但當(dāng)面對(duì)其他語言特別是需要深度文化理解的內(nèi)容時(shí),表現(xiàn)會(huì)顯著下降。這提醒我們,真正的人工通用智能不僅需要技術(shù)突破,還需要對(duì)全球語言和文化多樣性的深入理解和尊重。
研究結(jié)果對(duì)教育技術(shù)的發(fā)展也有重要啟示。如果AI系統(tǒng)要在非英語教育環(huán)境中發(fā)揮重要作用,就需要針對(duì)具體語言和文化背景進(jìn)行專門的優(yōu)化和訓(xùn)練。同時(shí),這也為發(fā)展中國家的AI研究提供了機(jī)會(huì)——專注于本土語言和文化的AI系統(tǒng)可能比通用的英語AI更有價(jià)值。
從技術(shù)發(fā)展的角度,這項(xiàng)研究指出了幾個(gè)值得關(guān)注的方向。首先是多模態(tài)推理能力的改進(jìn),特別是在非英語環(huán)境下的圖文理解能力。其次是消除訓(xùn)練數(shù)據(jù)中的偏見,減少AI系統(tǒng)在選擇答案時(shí)的不合理傾向。最后是開發(fā)更好的跨語言遷移學(xué)習(xí)方法,讓AI系統(tǒng)能夠更有效地將在一種語言中學(xué)到的知識(shí)應(yīng)用到其他語言中。
這項(xiàng)研究的意義不僅在于揭示了當(dāng)前AI系統(tǒng)的局限性,更在于為未來的發(fā)展指明了方向。隨著全球化的深入發(fā)展,AI系統(tǒng)需要具備真正的多語言多文化能力,而不僅僅是英語世界的"學(xué)霸"。只有這樣,AI技術(shù)才能真正惠及全球不同語言和文化背景的用戶。
說到底,這場AI與越南學(xué)生的"考試較量"告訴我們,技術(shù)的進(jìn)步還有很長的路要走。盡管AI在很多方面已經(jīng)超越了人類,但在理解和處理真實(shí)世界的復(fù)雜性,特別是涉及不同語言文化的內(nèi)容時(shí),AI仍然需要向人類學(xué)習(xí)。這不僅是技術(shù)挑戰(zhàn),也是如何讓AI更好地服務(wù)于多元化世界的重要課題。
Q&A
Q1:ViExam數(shù)據(jù)集是什么?它包含哪些內(nèi)容?
A:ViExam是由韓國科技院研究團(tuán)隊(duì)創(chuàng)建的越南語多模態(tài)考試題數(shù)據(jù)集,包含2548道需要同時(shí)理解圖像和越南語文字的題目,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、駕駛考試和智力測驗(yàn)七個(gè)領(lǐng)域,是首個(gè)專門評(píng)估AI越南語圖文理解能力的綜合測試基準(zhǔn)。
Q2:為什么AI模型在越南語考試中表現(xiàn)不如人類學(xué)生?
A:主要原因是多模態(tài)推理的挑戰(zhàn)而非語言障礙。研究顯示AI能很好識(shí)別越南語文字(錯(cuò)誤率只有6.68%),但在需要同時(shí)理解圖像和文字內(nèi)容進(jìn)行綜合推理時(shí)表現(xiàn)下降。純文字題目AI準(zhǔn)確率為70.60%,而多模態(tài)題目只有61.19%,說明圖文結(jié)合理解是真正的難點(diǎn)。
Q3:不同AI模型在越南語考試中的表現(xiàn)差異有多大?
A:差異非常顯著。最先進(jìn)的思維鏈模型o3準(zhǔn)確率達(dá)到74.07%,是唯一超過人類平均水平(66.54%)的AI系統(tǒng)。商業(yè)模型平均57.74%,而開源模型僅27.70%。其中表現(xiàn)最好的開源模型Qwen 2.5 VL 72B為41.77%,仍遠(yuǎn)低于表現(xiàn)最差的商業(yè)模型48.28%。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。