av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 多模態(tài)大模型也會"不懂裝懂"?港浸大團隊揭秘AI如何學(xué)會說"我不知道"

多模態(tài)大模型也會"不懂裝懂"?港浸大團隊揭秘AI如何學(xué)會說"我不知道"

2025-09-26 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-26 13:56 ? 科技行者

在人工智能飛速發(fā)展的今天,多模態(tài)大語言模型(就是那些能同時看圖片、理解文字的AI系統(tǒng))已經(jīng)變得非常強大。不過,有一個問題一直困擾著研究者們:這些AI模型總是傾向于給出一個答案,哪怕它們其實并不確定。這就像是一個不愿意承認(rèn)自己不知道答案的學(xué)生,總是會猜一個答案而不是誠實地說"我不知道"。

這項由香港浸會大學(xué)的周凱楊教授領(lǐng)導(dǎo)、聯(lián)合阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)研究團隊開展的研究,于2025年9月發(fā)表在arXiv預(yù)印本平臺上。研究團隊包括來自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)的童炳奎,以及來自香港浸會大學(xué)的夏家爾和尚思豐。有興趣深入了解的讀者可以通過https://github.com/maifoundations/HumbleBench訪問完整的研究代碼和數(shù)據(jù)集。

這個問題其實比我們想象的更嚴(yán)重。當(dāng)AI系統(tǒng)被用于醫(yī)療診斷、自動駕駛或者其他關(guān)鍵決策場景時,一個"不懂裝懂"的AI可能會帶來災(zāi)難性的后果。就像一個醫(yī)生如果不確定病情卻硬要給出診斷一樣危險。研究團隊意識到,目前幾乎所有的AI評估方法都只關(guān)注"AI能否選對答案",卻忽視了一個更重要的能力:當(dāng)所有選項都不對時,AI是否能夠勇敢地說"以上都不對"。

為了解決這個問題,研究團隊開發(fā)了一個全新的測試平臺,叫做HumbleBench(謙遜基準(zhǔn)測試)。這個名字很有意思,因為它要測試的正是AI模型的"認(rèn)知謙遜"能力——也就是在不確定的時候承認(rèn)自己不知道的智慧。這種能力在心理學(xué)中被稱為"認(rèn)知謙遜",是人類理性思維的重要組成部分。當(dāng)一個人面對不確定的信息時,選擇保留判斷而不是盲目猜測,這恰恰體現(xiàn)了真正的智慧。

研究團隊構(gòu)建了一個包含22,831個多選題的大型數(shù)據(jù)集,這是目前為止最大的AI幻覺評估數(shù)據(jù)集。每個問題都有五個選項,其中第五個選項永遠(yuǎn)是"以上都不對"。這種設(shè)計巧妙地模擬了現(xiàn)實世界中的復(fù)雜情況:有時候,所有看似合理的答案其實都是錯的。

一、像偵探一樣構(gòu)建測試題庫

構(gòu)建這個測試平臺就像是在組裝一個巨大的偵探推理題庫。研究團隊選擇了全景場景圖數(shù)據(jù)集作為"案發(fā)現(xiàn)場",這個數(shù)據(jù)集包含了超過4萬張圖片,每張圖片都有非常詳細(xì)的標(biāo)注信息,就像是案發(fā)現(xiàn)場的詳細(xì)勘察報告。

整個構(gòu)建過程分為幾個關(guān)鍵步驟。首先,研究團隊需要從圖片中提取各種"證據(jù)"。對于物體和關(guān)系信息,他們直接使用數(shù)據(jù)集中已有的精確標(biāo)注,這就像是現(xiàn)成的指紋和DNA證據(jù)。但是對于屬性信息(比如顏色、形狀、材質(zhì)等),數(shù)據(jù)集中并沒有現(xiàn)成的標(biāo)注,研究團隊就讓InstructBLIP模型來充當(dāng)"證據(jù)分析專家",通過觀察圖片中裁剪出來的物體片段來描述它們的特征。

接下來,研究團隊使用GPT-4-Turbo作為"題目編寫專家",基于這些證據(jù)信息生成各種推理題目。這個過程特別有趣,因為GPT-4需要同時扮演出題者和干擾項設(shè)計師的角色。它不僅要根據(jù)真實的圖片內(nèi)容出題,還要設(shè)計出看起來很合理但實際上完全錯誤的選項。這就像是在設(shè)計一個推理游戲,既要有正確答案,也要有足夠迷惑性的錯誤選項。

最關(guān)鍵的是人工篩選環(huán)節(jié)。研究團隊開發(fā)了一套專門的審核軟件,讓人類審核員像法官一樣對每個題目進行最終裁決。審核員需要判斷題目是否清晰明確、選項是否合理、答案是否正確。在初始的41,843個候選題目中,最終只有22,831個通過了嚴(yán)格的篩選,通過率約為54.56%。這個過程確保了每個題目都經(jīng)得起推敲,就像確保每個法庭案例都有充分可靠的證據(jù)支持。

二、三種不同類型的"推理陷阱"

HumbleBench設(shè)計了三種不同類型的測試,就像是三種不同的推理陷阱,分別考驗AI模型在不同方面的判斷能力。

第一種是物體幻覺測試,主要考驗AI能否準(zhǔn)確識別圖片中到底有什么東西。比如一張圖片中明明只有面包,題目問"圖片中有多少個三明治?"正確答案應(yīng)該是"以上都不對",因為圖片中根本沒有三明治。這就像是測試一個目擊證人能否準(zhǔn)確描述現(xiàn)場看到的物品,而不是根據(jù)主觀推測添加一些實際不存在的東西。

第二種是關(guān)系幻覺測試,重點考察AI能否正確理解物體之間的空間關(guān)系和交互關(guān)系。例如,圖片中一個女人坐在椅子旁邊,但題目的所有選項都暗示她坐在椅子上面或者有其他關(guān)系,這時正確答案就是"以上都不對"。這種測試就像是在驗證證人能否準(zhǔn)確描述事件中人物的位置關(guān)系和行為動作,而不是基于常識或偏見進行推測。

第三種是屬性幻覺測試,專門檢驗AI對物體特征(如顏色、材質(zhì)、形狀等)的判斷準(zhǔn)確性。比如天空明明是藍色的,但所有選項都提供了其他顏色,這時AI應(yīng)該選擇"以上都不對"。這類測試模擬了現(xiàn)實中需要精確觀察細(xì)節(jié)的情況,就像鑒定專家需要準(zhǔn)確描述證物的特征,不能因為主觀印象或常見情況而做出錯誤判斷。

這三種測試類型在數(shù)據(jù)集中相對均衡分布,物體類問題占31.64%,關(guān)系類問題占32.97%,屬性類問題占35.39%。這種平衡設(shè)計確保了測試的全面性,就像一個完整的能力評估需要覆蓋不同的認(rèn)知維度一樣。

三、讓頂尖AI模型接受"謙遜考試"

研究團隊選擇了19個當(dāng)前最先進的多模態(tài)AI模型進行測試,這些模型可以分為兩大類:通用型模型和推理特化型模型。通用型模型就像是全科醫(yī)生,什么都懂一點;而推理特化型模型則像是經(jīng)過額外訓(xùn)練的專科醫(yī)生,在復(fù)雜推理方面應(yīng)該更強。

在通用型模型中,表現(xiàn)最好的是Qwen2.5-VL,準(zhǔn)確率達到了72.20%。這就像是班級里成績最好的學(xué)生,雖然已經(jīng)很優(yōu)秀,但距離滿分還有不小差距。其他模型的表現(xiàn)大多集中在60%左右,這意味著它們在面對"以上都不對"的情況時,有約40%的概率會被錯誤選項迷惑。

有趣的是,推理特化型模型并沒有表現(xiàn)出預(yù)期中的優(yōu)勢。表現(xiàn)最好的GLM-4.1V-Thinking模型雖然達到了73.46%的準(zhǔn)確率,但相比最好的通用模型只有微弱提升。更令人意外的是,有些推理模型甚至表現(xiàn)得比它們的基礎(chǔ)模型更差。比如R1-Onevision是基于Qwen2.5-VL進行推理能力強化訓(xùn)練的,但它的表現(xiàn)(66.89%)明顯不如原始的Qwen2.5-VL(72.20%)。

這個結(jié)果就像發(fā)現(xiàn)經(jīng)過專業(yè)訓(xùn)練的??漆t(yī)生在某些基礎(chǔ)判斷上反而不如全科醫(yī)生一樣令人意外。研究團隊認(rèn)為,這可能是因為推理模型的訓(xùn)練過程過度強調(diào)了給出答案的能力,反而削弱了在不確定時保持謙遜的能力。這提醒我們,在AI訓(xùn)練中,有時候教會模型"不知道就說不知道"比教會它們"無論如何都要給出答案"更加重要。

另一個有趣的發(fā)現(xiàn)是,模型的參數(shù)規(guī)模(可以理解為模型的"大腦容量")與表現(xiàn)并不嚴(yán)格相關(guān)。比如只有4B參數(shù)的Visionary-R1模型就超過了許多更大的模型,而12B參數(shù)的Pixtral卻被5B參數(shù)的Phi-4超越。這說明在培養(yǎng)AI的認(rèn)知謙遜能力方面,訓(xùn)練方法和數(shù)據(jù)質(zhì)量比單純增加模型規(guī)模更重要。

四、極端壓力測試揭示AI的致命弱點

為了更深入地了解AI模型的弱點,研究團隊設(shè)計了兩個極端的壓力測試,就像是給汽車做極限性能測試一樣。

第一個壓力測試叫做HumbleBench-E,在這個測試中,所有題目的正確答案都被設(shè)置為"以上都不對"。這就相當(dāng)于讓AI面對一堆完全沒有正確選項的題目,看它們能否堅持選擇"以上都不對"而不是被錯誤選項誘惑。

結(jié)果令人震驚。大多數(shù)模型在這個測試中的表現(xiàn)都急劇下降,甚至低于隨機猜測的基準(zhǔn)線(20%)。表現(xiàn)最好的Qwen2.5-VL也只達到了28.89%的準(zhǔn)確率,而在總體測試中表現(xiàn)最佳的GLM-4.1V-Thinking在這里竟然只有0.06%的準(zhǔn)確率,幾乎完全失效。更極端的是,包括LLaVA-Next、Molmo-D等在內(nèi)的多個模型的準(zhǔn)確率直接歸零,這意味著它們在面對全是錯誤選項的情況時,永遠(yuǎn)不會選擇"以上都不對"。

這個結(jié)果就像發(fā)現(xiàn)即使是最優(yōu)秀的學(xué)生,在面對全是陷阱題的考試時也會完全迷失方向。只有Cambrian模型表現(xiàn)相對正常,達到了60.68%的準(zhǔn)確率,成為這場"誠實度測試"中的少數(shù)幸存者。

第二個壓力測試更加極端,叫做HumbleBench-GN。在這個測試中,研究團隊用完全的高斯噪聲圖像(就是電視沒信號時的雪花屏)替換了所有的原始圖片。由于這些噪聲圖像不包含任何有意義的視覺信息,理性的AI應(yīng)該對所有關(guān)于圖像內(nèi)容的問題都回答"以上都不對"。

這個測試的結(jié)果暴露了AI模型的另一個嚴(yán)重問題:當(dāng)缺乏視覺信息時,它們往往會依賴語言模型的先驗知識來"編造"答案。比如當(dāng)問到"天空是什么顏色"時,即使圖像完全是噪聲,Qwen2.5-VL仍然會回答"灰色",因為它的語言部分"記得"天空通常是灰色或藍色的。

在這個測試中,不同模型的表現(xiàn)差異巨大。Qwen2.5-VL表現(xiàn)最佳,準(zhǔn)確率達到90.53%,說明它能較好地識別噪聲圖像并拒絕給出具體答案。但Phi-4的準(zhǔn)確率只有28.19%,盡管它在正常測試中的表現(xiàn)與Qwen2.5-VL相當(dāng)。這種差異揭示了一個重要問題:有些模型雖然在正常情況下表現(xiàn)良好,但在面對無意義輸入時缺乏足夠的"視覺忠實度"。

五、AI"胡編亂造"背后的深層原因

通過對錯誤案例的深入分析,研究團隊發(fā)現(xiàn)了AI模型產(chǎn)生幻覺的幾個典型模式,就像醫(yī)生通過癥狀分析找到病因一樣。

最常見的問題是AI模型缺乏選擇"以上都不對"的勇氣。就像前面提到的面包和三明治的例子,圖片中明明是一塊面包,但當(dāng)問題問"有多少個三明治"時,AI會傾向于猜測"一個"而不是誠實地說"圖片中沒有三明治"。這種行為模式反映了當(dāng)前AI訓(xùn)練方式的一個根本問題:模型被訓(xùn)練成總是要從給定選項中選擇一個答案,而不是學(xué)會在不確定時保持沉默。

第二種常見錯誤是關(guān)系幻覺,AI經(jīng)常會根據(jù)常識或刻板印象來推斷物體之間的關(guān)系,而不是嚴(yán)格根據(jù)圖像內(nèi)容。比如看到女人和椅子在一起,就默認(rèn)女人坐在椅子上,而忽視了實際的空間位置關(guān)系。這就像一個目擊證人根據(jù)常理推測而不是根據(jù)實際觀察來作證一樣不可靠。

最嚴(yán)重的是視覺忠實度缺失問題。在噪聲圖像測試中,一些AI模型完全無視圖像內(nèi)容,純粹基于問題中的文字線索來生成答案。當(dāng)問到"天空的顏色"時,即使圖像是完全的噪聲,AI仍然會根據(jù)"天空"這個詞聯(lián)想到常見的顏色如"藍色"或"灰色"。這種現(xiàn)象說明這些模型在視覺和語言信息的整合方面存在根本缺陷,就像一個人閉著眼睛卻聲稱看到了什么一樣。

研究團隊還發(fā)現(xiàn),模型的自注意力機制可能會過度偏向語言信息而忽視視覺輸入。當(dāng)視覺信息不明確或缺失時,模型會自動切換到依賴預(yù)訓(xùn)練語言知識的模式,導(dǎo)致它們"編造"出看似合理但實際上與圖像內(nèi)容無關(guān)的答案。

這些發(fā)現(xiàn)揭示了當(dāng)前多模態(tài)AI系統(tǒng)的一個根本性挑戰(zhàn):如何在保持強大推理能力的同時,培養(yǎng)適度的不確定性和認(rèn)知謙遜。這不僅是技術(shù)問題,更是AI系統(tǒng)設(shè)計理念的問題。

六、重新定義AI評估標(biāo)準(zhǔn)的意義

這項研究的意義遠(yuǎn)超出了技術(shù)層面,它實際上在重新定義我們應(yīng)該如何評估AI系統(tǒng)的可靠性。傳統(tǒng)的AI評估就像只看學(xué)生能否在選擇題中選對答案,而忽視了一個更重要的能力:知道自己不知道什么。

HumbleBench填補了現(xiàn)有評估體系的關(guān)鍵空白。以往的幻覺評估基準(zhǔn)主要采用簡單的是非判斷或者假設(shè)總有一個正確選項的多選題格式。這就像是在一個理想化的考試環(huán)境中測試學(xué)生,所有題目都有標(biāo)準(zhǔn)答案,學(xué)生只需要找到正確選項即可。但現(xiàn)實世界遠(yuǎn)比這復(fù)雜,有時候所有看似合理的選項都可能是錯誤的,這時候承認(rèn)"我不知道"反而是最明智的選擇。

研究結(jié)果顯示,即使是目前最先進的AI模型,在面對"以上都不對"的情況時也表現(xiàn)得相當(dāng)脆弱。這個發(fā)現(xiàn)對AI系統(tǒng)的實際應(yīng)用有重要啟示。在醫(yī)療診斷、法律咨詢、金融決策等高風(fēng)險場景中,一個會"不懂裝懂"的AI系統(tǒng)可能比一個會說"我不確定,需要人類專家判斷"的系統(tǒng)更危險。

更深層次的意義在于,這項研究促使我們重新思考AI訓(xùn)練的目標(biāo)。當(dāng)前的AI訓(xùn)練往往過度強調(diào)準(zhǔn)確率和性能指標(biāo),而忽視了不確定性建模和風(fēng)險意識培養(yǎng)。就像教育一個孩子不僅要教會他們回答問題,更要教會他們什么時候應(yīng)該說"我不知道"一樣,AI系統(tǒng)也需要學(xué)會這種認(rèn)知謙遜。

研究團隊還發(fā)現(xiàn),單純增加模型規(guī)模并不能解決認(rèn)知謙遜問題,有時甚至?xí)寙栴}變得更嚴(yán)重。這提醒我們,在追求AI系統(tǒng)能力提升的過程中,需要更多關(guān)注訓(xùn)練數(shù)據(jù)的質(zhì)量、訓(xùn)練方法的設(shè)計,以及如何在模型中嵌入適當(dāng)?shù)牟淮_定性機制。

七、為AI安全發(fā)展指明方向

這項研究不僅識別了問題,更為解決這些問題指明了方向。研究團隊的工作表明,要構(gòu)建真正可信賴的AI系統(tǒng),我們需要從根本上改變AI訓(xùn)練和評估的范式。

首先,需要重新設(shè)計訓(xùn)練數(shù)據(jù)和訓(xùn)練目標(biāo)。傳統(tǒng)的訓(xùn)練方式鼓勵模型總是給出答案,即使在不確定的情況下也要"猜"一個。而新的訓(xùn)練范式應(yīng)該獎勵模型在不確定時選擇沉默,就像訓(xùn)練一個負(fù)責(zé)任的專家一樣,不確定時寧可承認(rèn)無知也不要給出可能誤導(dǎo)人的建議。

其次,評估標(biāo)準(zhǔn)需要更加全面和現(xiàn)實化。除了傳統(tǒng)的準(zhǔn)確率指標(biāo),還應(yīng)該包括模型的"誠實度"、"謙遜度"等指標(biāo)。一個好的AI系統(tǒng)不僅要在知道答案時表現(xiàn)準(zhǔn)確,更要在不知道答案時表現(xiàn)誠實。

研究團隊開源了HumbleBench的完整代碼和數(shù)據(jù)集,這為整個AI研究社區(qū)提供了一個標(biāo)準(zhǔn)化的工具來評估和改進模型的認(rèn)知謙遜能力。這就像為醫(yī)學(xué)研究提供了標(biāo)準(zhǔn)化的診斷工具,使得不同研究團隊可以在同一個基準(zhǔn)上比較和改進他們的方法。

對于AI系統(tǒng)的實際部署,這項研究也提供了重要的指導(dǎo)原則。在設(shè)計AI產(chǎn)品時,應(yīng)該為用戶提供清晰的不確定性指示,讓用戶知道AI什么時候是確信的,什么時候是在猜測。這種透明度對于建立用戶信任和確保AI系統(tǒng)的負(fù)責(zé)任使用至關(guān)重要。

展望未來,認(rèn)知謙遜可能會成為評估AI系統(tǒng)成熟度的重要標(biāo)準(zhǔn)。一個真正智能的系統(tǒng)不僅要知道很多事情,更要清楚地知道自己的知識邊界。這種自我認(rèn)知能力是人類智慧的重要組成部分,也應(yīng)該成為人工智能發(fā)展的重要目標(biāo)。

說到底,這項研究揭示了AI發(fā)展中一個看似簡單卻極其深刻的道理:有時候,承認(rèn)"我不知道"比給出一個錯誤答案更需要智慧。隨著AI系統(tǒng)在我們生活中扮演越來越重要的角色,培養(yǎng)它們的認(rèn)知謙遜不僅是技術(shù)進步的需要,更是確保AI安全發(fā)展的必然要求。當(dāng)AI學(xué)會了說"我不確定",我們才能真正信任它們說的"我知道"。

Q&A

Q1:HumbleBench和其他AI測試有什么不同?

A:HumbleBench最大的特點是每個題目都包含"以上都不對"選項,專門測試AI能否在所有選項都錯誤時承認(rèn)不知道。傳統(tǒng)測試只看AI能否選對答案,而HumbleBench要看AI是否具備"認(rèn)知謙遜"——即在不確定時拒絕猜測的能力。這更接近現(xiàn)實世界的復(fù)雜情況。

Q2:為什么連最先進的AI模型在HumbleBench上表現(xiàn)都不好?

A:因為現(xiàn)有AI模型的訓(xùn)練方式存在根本問題。它們被訓(xùn)練成總要從給定選項中選擇一個答案,而不是學(xué)會在不確定時保持沉默。就像一個不愿承認(rèn)無知的學(xué)生總要猜一個答案,這些AI模型寧可選擇錯誤選項也不愿選擇"以上都不對"。

Q3:這項研究對普通用戶使用AI有什么實際意義?

A:這提醒我們在使用AI時要保持警惕,特別是在重要決策場景中。當(dāng)前的AI系統(tǒng)很可能在不確定時還會表現(xiàn)得很自信,給出看似合理但實際錯誤的答案。用戶應(yīng)該學(xué)會識別AI的不確定性信號,在關(guān)鍵問題上尋求多方驗證,而不是完全依賴AI的判斷。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-