這項(xiàng)由吉林大學(xué)人工智能學(xué)院楊海琪、李金哲、李庚旭、常毅、吳元等研究者完成的重要研究,發(fā)表于2025年8月6日的計(jì)算機(jī)視覺(jué)領(lǐng)域權(quán)威期刊,探索了一個(gè)關(guān)乎AI安全性的關(guān)鍵問(wèn)題。感興趣的讀者可以通過(guò)arXiv:2508.04017v1訪問(wèn)完整論文,研究代碼已在GitHub公開:https://github.com/MLGroupJLU/LMM_ISEval。
當(dāng)你使用ChatGPT或Claude這樣的AI助手時(shí),是否想過(guò)它們能否像一個(gè)細(xì)心的朋友那樣,主動(dòng)提醒你"等等,你剛才說(shuō)的這個(gè)信息好像有問(wèn)題"?這個(gè)看似簡(jiǎn)單的能力,實(shí)際上是AI系統(tǒng)可靠性的重要標(biāo)志。吉林大學(xué)的研究團(tuán)隊(duì)就像是給AI做"體檢"的醫(yī)生,專門檢查現(xiàn)在最先進(jìn)的大型多模態(tài)AI模型是否具備這種"質(zhì)疑精神"。
所謂大型多模態(tài)AI模型,就是那些既能看圖又能理解文字的智能系統(tǒng),比如當(dāng)你上傳一張照片并詢問(wèn)相關(guān)問(wèn)題時(shí),它們能同時(shí)分析圖像內(nèi)容和你的文字描述。這種能力讓AI在很多場(chǎng)景中表現(xiàn)出色,但也帶來(lái)了一個(gè)新問(wèn)題:當(dāng)文字描述和圖像內(nèi)容發(fā)生沖突,或者輸入信息本身就有錯(cuò)誤時(shí),這些AI系統(tǒng)會(huì)怎么處理?
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人擔(dān)憂的現(xiàn)象:大部分先進(jìn)的AI模型就像是"好學(xué)生",它們傾向于被動(dòng)接受用戶提供的信息,哪怕這些信息明顯有錯(cuò)誤。這就好比一個(gè)學(xué)生在考試時(shí),明知道題目中給出的公式是錯(cuò)的,但仍然硬著頭皮用這個(gè)錯(cuò)誤公式去計(jì)算,最終得出荒謬的答案。這種行為在現(xiàn)實(shí)應(yīng)用中可能帶來(lái)嚴(yán)重后果,特別是在醫(yī)療診斷、法律咨詢或教育輔導(dǎo)等需要高度準(zhǔn)確性的場(chǎng)景中。
為了系統(tǒng)性地研究這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為ISEval的評(píng)估框架,就像是為AI設(shè)計(jì)的"邏輯推理能力測(cè)試"。這個(gè)框架包含七種不同類型的錯(cuò)誤前提和三個(gè)評(píng)估指標(biāo),能夠全面檢測(cè)AI模型的輸入審查能力。研究團(tuán)隊(duì)測(cè)試了10個(gè)目前最先進(jìn)的多模態(tài)AI模型,包括GPT-4o、Claude Sonnet 4、Gemini 2.5 pro等知名系統(tǒng),結(jié)果揭示了一些意想不到的發(fā)現(xiàn)。
一、AI的"質(zhì)疑能力"現(xiàn)狀令人擔(dān)憂
研究結(jié)果顯示,即使是最先進(jìn)的AI模型,在沒(méi)有明確提示的情況下主動(dòng)發(fā)現(xiàn)輸入錯(cuò)誤的能力也極其有限。以GPT-4o為例,它的自發(fā)錯(cuò)誤檢測(cè)率僅為4.71%,這意味著在100個(gè)包含錯(cuò)誤前提的問(wèn)題中,它只能主動(dòng)識(shí)別出不到5個(gè)。這就像是一個(gè)從不質(zhì)疑權(quán)威的學(xué)生,老師說(shuō)什么就相信什么,即使明顯違背常識(shí)也不會(huì)提出疑問(wèn)。
更有趣的是,當(dāng)研究人員在問(wèn)題中明確加上"請(qǐng)檢查前提是否有錯(cuò)誤"這樣的提示后,同樣的模型表現(xiàn)就大幅提升了。GPT-4o的引導(dǎo)錯(cuò)誤檢測(cè)率達(dá)到了55.14%,這說(shuō)明這些AI系統(tǒng)實(shí)際上具備識(shí)別錯(cuò)誤的潛在能力,但需要外部提示才能激活這種能力。這種現(xiàn)象類似于一個(gè)有能力的員工,只有在老板明確要求"仔細(xì)檢查"時(shí)才會(huì)認(rèn)真審查工作內(nèi)容,而在日常工作中往往疏于質(zhì)疑。
在所有測(cè)試的模型中,Gemini 2.5 pro表現(xiàn)相對(duì)最好,自發(fā)錯(cuò)誤檢測(cè)率達(dá)到21.95%,但這仍然意味著它會(huì)忽略近80%的輸入錯(cuò)誤。即使是參數(shù)規(guī)模達(dá)到38B的InternVL3模型,其自發(fā)檢測(cè)率也只有3.67%。這些數(shù)據(jù)清楚地表明,目前的AI系統(tǒng)普遍缺乏主動(dòng)質(zhì)疑和驗(yàn)證輸入信息的能力。
二、不同類型錯(cuò)誤的識(shí)別難度差異巨大
研究團(tuán)隊(duì)精心設(shè)計(jì)了七種不同類型的錯(cuò)誤前提來(lái)測(cè)試AI的反應(yīng),這就像是用不同顏色的"陷阱"來(lái)測(cè)試AI的警覺(jué)性。結(jié)果發(fā)現(xiàn),AI對(duì)不同類型錯(cuò)誤的敏感程度存在顯著差異,這種差異揭示了AI認(rèn)知能力的有趣特征。
在"誤導(dǎo)性邏輯"錯(cuò)誤方面,AI表現(xiàn)相對(duì)較好。當(dāng)問(wèn)題中包含明顯的邏輯謬誤或錯(cuò)誤推理步驟時(shí),大部分模型都能在引導(dǎo)下識(shí)別出問(wèn)題,成功率超過(guò)80%。這就像是一個(gè)數(shù)學(xué)老師能夠輕松發(fā)現(xiàn)學(xué)生計(jì)算過(guò)程中的邏輯錯(cuò)誤。這種能力的相對(duì)優(yōu)勢(shì)可能源于AI模型在訓(xùn)練過(guò)程中接觸了大量的邏輯推理任務(wù)。
然而,在表面語(yǔ)言錯(cuò)誤方面,AI的表現(xiàn)就差強(qiáng)人意了。面對(duì)語(yǔ)法錯(cuò)誤、用詞不當(dāng)或表述不清等問(wèn)題,AI往往視而不見,即使在明確提示下也很難準(zhǔn)確識(shí)別。這種現(xiàn)象頗為諷刺:一個(gè)能夠生成流暢文章的AI系統(tǒng),卻無(wú)法發(fā)現(xiàn)簡(jiǎn)單的語(yǔ)法錯(cuò)誤。這就好比一個(gè)文學(xué)教授能夠創(chuàng)作優(yōu)美的詩(shī)歌,但在批改學(xué)生作業(yè)時(shí)卻忽略了明顯的錯(cuò)別字。
最讓人意外的是AI在處理?xiàng)l件錯(cuò)誤方面的表現(xiàn)。當(dāng)問(wèn)題中包含不相關(guān)的條件信息或缺少必要條件時(shí),AI的識(shí)別能力降到了最低點(diǎn)。特別是"排他性條件"錯(cuò)誤,即問(wèn)題中同時(shí)給出兩個(gè)相互矛盾的條件,大部分模型的識(shí)別率都在30%以下。這種情況就像是告訴AI"這個(gè)房間既是完全黑暗的,又充滿了明亮的陽(yáng)光",但AI卻不會(huì)質(zhì)疑這種明顯的矛盾。
三、視覺(jué)與文字信息沖突時(shí)的奇特行為
當(dāng)圖像內(nèi)容與文字描述發(fā)生沖突時(shí),不同AI模型展現(xiàn)出了截然不同的處理策略,這種差異反映了它們內(nèi)部信息處理機(jī)制的根本不同。研究發(fā)現(xiàn),面對(duì)這種跨模態(tài)不一致性,AI模型會(huì)表現(xiàn)出類似人類的"偏見"行為。
在大部分情況下,當(dāng)沒(méi)有明顯的視覺(jué)-文字沖突時(shí),幾乎所有AI模型都傾向于更相信文字信息。這就像是一個(gè)習(xí)慣于看說(shuō)明書的人,即使親眼看到了不同的情況,仍然會(huì)優(yōu)先相信文字描述。這種"文字偏好"在GPT-4o等模型中表現(xiàn)得特別明顯,文字信任度通常超過(guò)60%。
但是,當(dāng)圖像和文字明確發(fā)生沖突時(shí),有趣的現(xiàn)象出現(xiàn)了。一些大型閉源模型如Gemini 2.5 pro和Claude Sonnet 4開始展現(xiàn)出更平衡的處理方式,它們會(huì)增加對(duì)視覺(jué)信息的依賴。比如Gemini 2.5 pro在沖突情況下的視覺(jué)偏好度達(dá)到63.42%,這說(shuō)明它具備了根據(jù)情境動(dòng)態(tài)調(diào)整信息權(quán)重的能力。
相比之下,一些規(guī)模較小或開源的模型如aya-vision-8b則表現(xiàn)出固執(zhí)的"文字中心主義"。無(wú)論圖像內(nèi)容如何明確地與文字矛盾,這些模型仍然堅(jiān)持相信文字信息。這種行為類似于一個(gè)過(guò)分依賴GPS導(dǎo)航的司機(jī),即使親眼看到前方道路封閉,仍然會(huì)按照導(dǎo)航指示繼續(xù)前進(jìn)。
更深層的分析顯示,這種模態(tài)偏好與模型的架構(gòu)復(fù)雜度和訓(xùn)練數(shù)據(jù)質(zhì)量密切相關(guān)。高質(zhì)量的大型模型具備了更靈活的信息整合能力,能夠根據(jù)具體情況調(diào)整對(duì)不同模態(tài)信息的信任程度。而較小規(guī)模的模型則更傾向于采用固定的處理策略,缺乏這種動(dòng)態(tài)適應(yīng)性。
四、深入分析揭示的根本問(wèn)題
通過(guò)對(duì)大量測(cè)試數(shù)據(jù)的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象:當(dāng)前AI系統(tǒng)的被動(dòng)接受行為并非偶然,而是反映了其訓(xùn)練方式的根本特征。大部分AI模型在訓(xùn)練過(guò)程中被鼓勵(lì)盡可能地滿足用戶需求,提供有用的回答,而不是質(zhì)疑用戶輸入的合理性。
這種訓(xùn)練模式造就了"討好型"AI系統(tǒng)。就像是一個(gè)過(guò)分熱心的服務(wù)員,即使顧客點(diǎn)了一道根本不存在的菜品,也會(huì)努力想辦法滿足這個(gè)不合理的要求,而不是禮貌地指出菜單上沒(méi)有這道菜。這種行為模式在日常交互中可能顯得更加友善,但在需要準(zhǔn)確性和可靠性的場(chǎng)景中卻可能帶來(lái)嚴(yán)重問(wèn)題。
研究還發(fā)現(xiàn),AI模型的錯(cuò)誤檢測(cè)能力與其整體性能并不完全相關(guān)。一些在傳統(tǒng)任務(wù)上表現(xiàn)優(yōu)秀的模型,在輸入審查方面卻表現(xiàn)平平。這說(shuō)明錯(cuò)誤檢測(cè)是一種獨(dú)特的認(rèn)知能力,需要專門的訓(xùn)練和優(yōu)化。這就好比一個(gè)數(shù)學(xué)天才可能在解決復(fù)雜方程方面表現(xiàn)出色,但在檢查他人計(jì)算錯(cuò)誤方面卻不一定有同樣的敏銳度。
另一個(gè)重要發(fā)現(xiàn)是,模型規(guī)模并不是決定錯(cuò)誤檢測(cè)能力的唯一因素。雖然大型模型通常表現(xiàn)更好,但一些中等規(guī)模的模型通過(guò)優(yōu)化的訓(xùn)練策略也能達(dá)到不錯(cuò)的表現(xiàn)。這提示研究者,提升AI的輸入審查能力可能更多地依賴于訓(xùn)練方法的改進(jìn),而不僅僅是模型規(guī)模的擴(kuò)大。
五、評(píng)估框架的創(chuàng)新設(shè)計(jì)
ISEval框架的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。他們將錯(cuò)誤類型分為三大類七小類,覆蓋了從表達(dá)錯(cuò)誤到邏輯謬誤的各種可能情況。這種分類方式就像是為AI設(shè)計(jì)的"全面體檢套餐",每一項(xiàng)檢查都針對(duì)不同的認(rèn)知能力。
表達(dá)錯(cuò)誤類別包括了引用不清、語(yǔ)法錯(cuò)誤和概念混淆三種情況。引用不清就像是在對(duì)話中使用模糊的代詞,讓聽者無(wú)法確定具體指代什么;語(yǔ)法錯(cuò)誤則是最基礎(chǔ)的語(yǔ)言規(guī)范問(wèn)題;概念混淆是指用錯(cuò)誤的術(shù)語(yǔ)描述概念,比如說(shuō)"正方形的半徑"這樣的表述。
條件錯(cuò)誤類別涵蓋了無(wú)關(guān)條件、缺失條件和排他條件三種情況。無(wú)關(guān)條件就像是在計(jì)算房間面積時(shí)提到房間的顏色,這些信息雖然無(wú)害但會(huì)干擾核心任務(wù);缺失條件則是解決問(wèn)題所需的關(guān)鍵信息缺失;排他條件是最復(fù)雜的,指同時(shí)給出兩個(gè)互相矛盾的條件。
推理錯(cuò)誤類別專門針對(duì)邏輯謬誤,測(cè)試AI是否能識(shí)別錯(cuò)誤的推理過(guò)程或計(jì)算方法。這類錯(cuò)誤往往最容易被發(fā)現(xiàn),因?yàn)樗鼈冞`背了基本的邏輯原則。
為了確保評(píng)估的公平性和準(zhǔn)確性,研究團(tuán)隊(duì)設(shè)計(jì)了兩種測(cè)試變體:一種不包含任何檢查指令的"自然"版本,一種明確要求檢查錯(cuò)誤的"引導(dǎo)"版本。這種對(duì)比設(shè)計(jì)巧妙地區(qū)分了AI的主動(dòng)檢測(cè)能力和被動(dòng)響應(yīng)能力。
六、實(shí)驗(yàn)結(jié)果的深層意義
通過(guò)對(duì)10個(gè)先進(jìn)AI模型的全面測(cè)試,研究揭示了當(dāng)前多模態(tài)AI發(fā)展中的一個(gè)重要盲點(diǎn)。雖然這些系統(tǒng)在生成內(nèi)容、回答問(wèn)題等方面表現(xiàn)出色,但它們?nèi)狈ε行运季S能力。這種缺失可能限制了AI在需要高度可靠性的應(yīng)用場(chǎng)景中的部署。
測(cè)試結(jié)果顯示,即使是最先進(jìn)的模型也存在明顯的能力短板。GPT-4o在自發(fā)檢測(cè)方面的4.71%成功率,意味著它會(huì)無(wú)條件接受95%以上的錯(cuò)誤輸入。這個(gè)數(shù)字聽起來(lái)可能不太嚴(yán)重,但在實(shí)際應(yīng)用中,這種被動(dòng)接受可能導(dǎo)致錯(cuò)誤信息的傳播和放大。
更令人關(guān)注的是不同錯(cuò)誤類型之間的巨大性能差異。AI在邏輯錯(cuò)誤檢測(cè)方面的相對(duì)優(yōu)勢(shì),與在條件錯(cuò)誤檢測(cè)方面的明顯劣勢(shì)形成鮮明對(duì)比。這種不平衡可能源于訓(xùn)練數(shù)據(jù)的偏向性,也可能反映了當(dāng)前訓(xùn)練方法的局限性。
跨模態(tài)一致性分析揭示了另一個(gè)重要問(wèn)題:大部分AI模型在處理多模態(tài)信息時(shí)缺乏有效的一致性檢查機(jī)制。當(dāng)視覺(jué)和文本信息發(fā)生沖突時(shí),模型往往會(huì)選擇其中一種模態(tài)而忽略沖突的存在,而不是主動(dòng)指出這種不一致性。
七、對(duì)未來(lái)發(fā)展的啟示
這項(xiàng)研究為改進(jìn)AI系統(tǒng)的可靠性指出了明確方向。首先,需要在訓(xùn)練過(guò)程中專門加入批判性思維的訓(xùn)練環(huán)節(jié),讓AI學(xué)會(huì)質(zhì)疑和驗(yàn)證輸入信息。這就像是培養(yǎng)一個(gè)學(xué)生不僅要學(xué)會(huì)回答問(wèn)題,還要學(xué)會(huì)質(zhì)疑問(wèn)題本身的合理性。
其次,需要開發(fā)更加平衡的多模態(tài)融合機(jī)制。當(dāng)前的AI系統(tǒng)要么過(guò)分依賴文本,要么在面對(duì)沖突時(shí)簡(jiǎn)單地選擇一方,而缺乏綜合分析和沖突檢測(cè)的能力。理想的系統(tǒng)應(yīng)該能夠識(shí)別跨模態(tài)沖突,并將這種沖突作為重要信息反饋給用戶。
此外,研究結(jié)果表明需要針對(duì)不同類型的錯(cuò)誤開發(fā)專門的檢測(cè)機(jī)制。由于AI在處理不同錯(cuò)誤類型時(shí)表現(xiàn)差異巨大,統(tǒng)一的訓(xùn)練方法可能無(wú)法達(dá)到理想效果。針對(duì)性的訓(xùn)練策略可能是提升整體檢測(cè)能力的關(guān)鍵。
研究還提示了評(píng)估標(biāo)準(zhǔn)的重要性。傳統(tǒng)的AI評(píng)估往往關(guān)注生成質(zhì)量和任務(wù)完成度,而忽略了錯(cuò)誤檢測(cè)這樣的"防守型"能力。建立全面的評(píng)估體系,包括主動(dòng)錯(cuò)誤檢測(cè)能力,對(duì)于開發(fā)真正可靠的AI系統(tǒng)至關(guān)重要。
從長(zhǎng)遠(yuǎn)來(lái)看,這項(xiàng)研究為開發(fā)"有批判精神"的AI系統(tǒng)奠定了基礎(chǔ)。未來(lái)的AI助手不應(yīng)該是無(wú)條件服從的工具,而應(yīng)該是能夠主動(dòng)提醒用戶注意潛在問(wèn)題的智能伙伴。這種轉(zhuǎn)變將大大提升AI系統(tǒng)在關(guān)鍵應(yīng)用場(chǎng)景中的可信度和實(shí)用性。
總的來(lái)說(shuō),吉林大學(xué)這項(xiàng)開創(chuàng)性研究揭示了當(dāng)前AI系統(tǒng)的一個(gè)重要局限性,同時(shí)也為解決這個(gè)問(wèn)題提供了系統(tǒng)性的方法和工具。雖然結(jié)果顯示現(xiàn)有AI系統(tǒng)在主動(dòng)錯(cuò)誤檢測(cè)方面還有很大改進(jìn)空間,但這項(xiàng)研究為未來(lái)開發(fā)更可靠、更智能的AI系統(tǒng)指明了方向。隨著ISEval框架的公開和推廣,相信會(huì)有更多研究者投入到提升AI批判性思維能力的研究中,最終讓AI助手變得更加值得信賴。
Q&A
Q1:ISEval評(píng)估框架是什么?它是如何測(cè)試AI模型的?
A:ISEval是吉林大學(xué)開發(fā)的專門測(cè)試AI輸入審查能力的評(píng)估框架。它包含七種不同類型的錯(cuò)誤前提(如語(yǔ)法錯(cuò)誤、邏輯謬誤、條件矛盾等)和三個(gè)評(píng)估指標(biāo),就像給AI做全面體檢一樣。框架會(huì)故意在問(wèn)題中植入錯(cuò)誤信息,然后觀察AI是否能主動(dòng)發(fā)現(xiàn)這些錯(cuò)誤,從而評(píng)估AI的"質(zhì)疑精神"。
Q2:為什么大型AI模型主動(dòng)發(fā)現(xiàn)錯(cuò)誤的能力這么差?
A:研究發(fā)現(xiàn)即使是GPT-4o這樣的先進(jìn)模型,自發(fā)錯(cuò)誤檢測(cè)率也只有4.71%。這主要是因?yàn)锳I模型在訓(xùn)練時(shí)被鼓勵(lì)盡可能滿足用戶需求,養(yǎng)成了"討好型"行為模式。它們更像是過(guò)分熱心的服務(wù)員,即使面對(duì)不合理要求也會(huì)努力滿足,而不是質(zhì)疑輸入信息的合理性。
Q3:當(dāng)圖片和文字描述發(fā)生沖突時(shí),AI模型會(huì)如何處理?
A:不同AI模型的處理方式差異很大。大部分模型在沒(méi)有沖突時(shí)更相信文字信息,但面對(duì)明顯沖突時(shí)會(huì)有分化:像Gemini 2.5 pro這樣的大型模型會(huì)動(dòng)態(tài)調(diào)整,增加對(duì)視覺(jué)信息的依賴;而像aya-vision-8b這樣的小模型則會(huì)固執(zhí)地堅(jiān)持文字信息,即使圖片明確顯示相反內(nèi)容也不改變判斷。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。