這項由韓國科學技術院(KAIST)的Doohyuk Jang、Yoonjeon Kim、Chanjae Park、Hyun Ryu和Eunho Yang(同時也隸屬于AITRICS)合作完成的研究于2025年5月22日在arXiv預印本平臺發(fā)布(arXiv:2505.17225v1),題為《Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models》。
近年來,大型語言模型(LLMs)的發(fā)展突飛猛進,特別是那些專為復雜推理設計的模型,如Qwen3、Claude 3.7和GPT-4o系列。這些模型被訓練成能夠生成長鏈條思考(Chain-of-Thought)過程,在解決數(shù)學問題和邏輯謎題時展現(xiàn)出驚人的能力。然而,KAIST的研究團隊發(fā)現(xiàn)了一個有趣且令人擔憂的現(xiàn)象:這些推理模型有時會固執(zhí)地按照自己的思路走,甚至"無視"用戶明確給出的條件和指令。
想象一下,你告訴一個非常聰明的朋友解決一道數(shù)學題,并特別強調(diào)了一個關鍵條件,但這位朋友卻仿佛沒聽見一樣,自顧自地使用常規(guī)方法解題,最終得出錯誤答案。令人驚訝的是,這位朋友并非沒聽懂你的話,而是下意識地認為你的特殊條件"一定是說錯了",并默默"糾正"了你的條件后再解題。這正是研究團隊所發(fā)現(xiàn)的"推理剛性"(reasoning rigidity)現(xiàn)象。
研究人員通過精心設計的實驗揭示了這一現(xiàn)象。例如,當告訴模型"z是一個大小為4的正實數(shù)"時,盡管模型完全理解了這個條件,但在推理過程中卻突然決定"z必然是復數(shù)而非實數(shù)",因為這更符合它習慣的解題模式。同樣,當告訴模型"兔子是永久不育的"時,它理解了這個條件,卻在推理過程中將其重新解釋為"兔子暫時不育",從而將問題轉(zhuǎn)變?yōu)榻?jīng)典的斐波那契序列問題。
為了系統(tǒng)研究這種現(xiàn)象,研究團隊創(chuàng)建了ReasoningTrap評估數(shù)據(jù)集,包含ConditionedMath(修改過的數(shù)學問題)和PuzzleTrivial(簡化版經(jīng)典謎題),并分析了各種推理模型的表現(xiàn)。令人驚訝的是,即使是最先進的推理模型也常常表現(xiàn)出這種"固執(zhí)"行為,而且研究團隊成功將這種行為歸類為三種主要模式:解釋過載(把簡單條件復雜化)、輸入不信任(認為條件有誤)和部分指令關注(選擇性關注條件)。
這項研究不僅揭示了當前推理模型的局限性,也為未來模型開發(fā)提供了重要啟示。正如研究人員所指出的,克服這種推理剛性是建立更值得信賴的AI系統(tǒng)的重要一步。
一、推理剛性:當AI堅持走自己的路
想象你正在使用一個高級計算器解決數(shù)學問題。但這個計算器有個怪癖:當你輸入一個"不尋常"的問題時,它會悄悄地修改你的問題,然后解決它認為你"真正想問的問題"。這就是KAIST研究團隊發(fā)現(xiàn)的"推理剛性"現(xiàn)象。
研究人員解釋說,推理剛性與我們常聽到的"幻覺"(hallucination,模型編造不存在的信息)和"提示敏感性"(prompt brittleness,對提示格式的輕微變化導致不穩(wěn)定輸出)是不同的。推理剛性是一種認知偏見:即便模型完全理解了給定的條件,它仍然會為了遵循熟悉的解決方案模板而覆蓋這些條件。
為了理解這種行為,讓我們來看幾個例子。在一個修改版的數(shù)學競賽問題(AIME)中,問題明確要求計算"當z是大小為4的正實數(shù)時的某個表達式的最大實部"。正常思路很簡單:既然z是正實數(shù),大小為4,那么z就等于4。但是,專為復雜推理訓練的模型卻表現(xiàn)出驚人的偏見,它們推理道:"嗯,這個問題說z是正實數(shù),大小是4,但這肯定是個錯誤陳述,因為我們需要考慮z是復數(shù)才能找到最大實部"。模型就這樣完全重寫了給定條件,得出了錯誤答案。
在另一個例子中,研究人員修改了著名的"斐波那契兔子問題",明確表示"一對永久不育的兔子被放在一個田野里"。對于這個問題,普通模型正確推斷出兔子數(shù)量不會增加,永遠保持為1。但推理模型卻認為"永久不育"這個條件"太簡單了",一定是指"暫時不育",或者說這個問題一定是經(jīng)典的斐波那契序列問題的變體,最終給出了錯誤答案。
這種行為特別令人擔憂,因為模型不是因為不理解指令而出錯,而是因為它過于依賴訓練期間形成的固定推理模式,以至于在面對偏離這些模式的指令時,會本能地"修正"指令,使其符合自己熟悉的思維路徑。就像一個經(jīng)驗豐富但固執(zhí)的專家,他可能會因為太相信自己的經(jīng)驗而忽略客戶的特殊需求。
二、ReasoningTrap:一個專門設計來"困住"推理模型的診斷集
為了系統(tǒng)研究這種推理剛性現(xiàn)象,研究團隊創(chuàng)建了一個名為ReasoningTrap的診斷數(shù)據(jù)集。正如名稱所暗示的,這個數(shù)據(jù)集設計了一系列"陷阱",用于測試模型是否會被自己的固有推理模式所"困住"。
這個數(shù)據(jù)集包含兩個主要部分:ConditionedMath和PuzzleTrivial。ConditionedMath取自兩個知名的數(shù)學問題集——AIME(2022-2024)和MATH500(5級),并添加了特殊條件,使問題的解法與原始問題完全不同。這就像是給一道標準考題增加了一個特殊條件:"在這道幾何題中,請假設圓周率π=3"。
構建這些問題的過程非常精心。研究人員首先使用GPT-4o-mini為每個原始問題生成五個變體,每個變體都添加了一個不尋常的條件。然后,使用另一個大型語言模型(o4-mini)驗證這些變體是否滿足三個關鍵標準:(1)數(shù)學上有效(沒有內(nèi)部矛盾),(2)解決方案與原始問題不同,(3)有解決方案。最后,一位具有數(shù)學專業(yè)知識的人類評估員進一步審查每個問題-解決方案對,確保它們符合這些約束。
PuzzleTrivial則采取了不同的方法。研究人員選取了經(jīng)典謎題(如漢諾塔或水桶測量問題),稍加修改或刪除某些約束,從而大大簡化了解決所需的邏輯推理。例如,在"漢諾塔"問題中,他們明確指出"這不是漢諾塔問題",從而消除了原始問題中的關鍵約束(較大的盤不能放在較小的盤上)。對于大多數(shù)人來說,這個提示會導致一個非常簡單的解決方案,但推理模型卻傾向于忽視這個明確的指示,堅持使用傳統(tǒng)的漢諾塔解法。
最終,ReasoningTrap包含了164個測試項目:84個數(shù)學問題和80個謎題。這些問題設計得巧妙而嚴謹,確保它們既能測試模型遵循用戶指令的能力,又能揭示模型在遇到偏離常規(guī)的情況時是否會違背這些指令,默認使用熟悉的推理模式。
三、污染比率與早期檢測:量化和預防推理剛性
要理解推理模型如何被熟悉的推理模式"污染",研究團隊開發(fā)了一個稱為"污染比率"(contamination ratio)的度量標準。這個指標衡量模型生成的推理過程中,有多大比例似乎遵循了原始(錯誤的)推理路徑,而非根據(jù)修改后的條件推理。
想象一下,如果你請一個學生解決一道修改版的數(shù)學題,然后觀察他的草稿紙。如果學生開始使用原始問題的解法,但后來意識到問題有特殊條件并糾正了自己的思路,你可能會說他的解答被"部分污染"了。污染比率就是量化這種污染程度的方法。
具體來說,研究團隊將模型生成的推理過程分成多個段落,并將每個段落與兩個參考文本進行比較:原始推理(遵循常規(guī)模式的推理)和修改后的推理(遵循特殊條件的推理)。如果某個段落與原始推理的相似度高于與修改后推理的相似度,那么這個段落就被認為是"被污染的"。污染比率就是被污染段落在總段落中的比例。
研究發(fā)現(xiàn)了兩個有趣的趨勢:首先,當污染比率低于大約40%時,模型仍然能夠得出正確答案。但是,一旦污染比率超過這個閾值,模型正確解決問題的能力急劇下降,表明模型已經(jīng)陷入了錯誤的推理路徑。其次,研究者發(fā)現(xiàn),在推理過程中,污染比率往往會隨著推理步驟的延長而增加,特別是在具備長鏈條思考能力的高級推理模型中。這表明,模型的問題不在于初始理解,而在于隨著推理深入,它們越來越傾向于回歸到熟悉的推理模式。
更重要的是,研究團隊確定了三種主要的"污染模式",這些模式反映了模型推理過程中的不同類型的認知偏見:
1. 解釋過載(Interpretation Overload):模型開始拒絕接受問題條件的直接解釋,而是不斷地重新解釋問題,尋找更復雜的理解方式。這就像一個資深數(shù)學老師遇到一道過于簡單的題目,懷疑自己是否遺漏了某些隱含條件,因此過度復雜化了問題。當模型表現(xiàn)出這種行為時,它們往往在推理中使用諸如"讓我分析一下這個問題..."、"另一種解釋是..."、"等等,讓我重新檢查一下..."等表達方式。
2. 輸入不信任(Input Distrust):模型開始懷疑用戶提供的條件是否有誤,猜測可能存在打字錯誤、翻譯錯誤或誤解。這就像一個過于自信的專家認為客戶的特殊需求一定是表達不清,而不是真正的需求。這種模式的典型表現(xiàn)包括模型使用"也許用戶打錯了字"、"這可能是一個拼寫錯誤"、"這可能是翻譯錯誤"等表達方式。
3. 部分指令關注(Partial Instruction Attention):模型選擇性地關注指令的某些部分,忽略其他部分,特別是那些與其預期不符的條件。例如,當模型被告知"兔子是永久不育的",它可能會注意到"兔子"和"不育",但忽略"永久"一詞,從而將問題轉(zhuǎn)換為常規(guī)的斐波那契序列問題。
研究團隊還探索了如何在實際應用中檢測這些污染模式。他們發(fā)現(xiàn),通過分析模型的推理文本,可以發(fā)現(xiàn)暗示污染發(fā)生的信號,比如模型突然開始懷疑問題陳述的準確性,或者開始重新解釋明確的條件。這為開發(fā)能夠自動檢測和減輕推理剛性的系統(tǒng)提供了基礎。
四、實驗結果:推理模型真的比基礎模型更"固執(zhí)"嗎?
研究團隊對各種大型語言模型進行了廣泛測試,包括Qwen2.5-32B-Instruct、QwQ-32B、Qwen3-32B、Qwen3-235B、DeepSeek V3(671B)、DeepSeek R1(671B)、ChatGPT-4o、GPT-4o、o3-mini、o4-mini、Google Gemini 2.5 Flash和Claude 3.7 Sonnet等。這些模型被分為七對,每對包含一個基礎模型和一個經(jīng)過長形式推理訓練的對應變體。
測試結果非常有趣,也相當出人意料。在大多數(shù)情況下,推理模型的表現(xiàn)實際上比其基礎模型對應物更差,這與人們的普遍預期相反。在ConditionedMath數(shù)據(jù)集上,基礎模型實現(xiàn)了明顯更高的p-pass@1分數(shù)(一個衡量模型是否正確理解問題條件并給出正確答案的指標)。這表明,一旦模型正確理解了問題,基礎模型往往更嚴格地遵循原始指令,更有可能達到正確答案。
例如,在AIME問題集上,Qwen2.5-32B-Instruct(基礎模型)的p-pass@1分數(shù)為59.12±7.81,而其推理增強版QwQ-32B只有49.21±6.79。類似地,在MATH500問題集上,Qwen3-32B的"不思考"版本(基礎模型)得分為50.51±5.52,而"思考"版本(推理模型)只有34.60±5.60。
在PuzzleTrivial數(shù)據(jù)集上,這種趨勢更為明顯。例如,Qwen3-32B的"不思考"版本得分為74.30±3.33,而"思考"版本僅為38.28±3.47。這表明,基礎模型在處理有特殊條件的簡單謎題時,比專門為復雜推理訓練的模型更加靈活。
這些結果令人深思:為什么專門訓練來改善推理能力的模型反而會表現(xiàn)出更強的推理剛性?研究團隊推測,這可能與這些模型的訓練方式有關。推理模型通常通過強化學習訓練來生成長鏈條思考過程,這可能導致它們過度適應特定的推理模式,從而在面對不常見或偏離這些模式的問題時表現(xiàn)出更強的偏見。
五、緩解策略:如何讓推理模型更"聽話"?
既然發(fā)現(xiàn)了推理剛性這一問題,研究團隊也探索了可能的緩解策略。他們測試了兩種主要方法:預算強制(Budget Forcing)和提示暗示(Prompt Hinting)。
預算強制是一種限制模型生成推理步驟數(shù)量的技術。研究團隊實驗了三種不同級別的標記預算:低、中、高。例如,對于MATH500數(shù)據(jù)集,他們使用2000、4000和6000個標記作為低、中、高預算;對于AIME問題集,則使用2000、6000和10000個標記。
實驗結果顯示,對于ReasoningTrap數(shù)據(jù)集,低標記預算實際上有利于提高性能。例如,在ConditionedMath AIME上,使用低預算時,Qwen3-32B的p-pass@1分數(shù)從33.25±6.58提高到53.66±7.63。這表明,限制推理步驟的數(shù)量可以減少模型陷入錯誤推理路徑的機會。
然而,這種改進是有代價的。同樣的低預算策略應用于原始AIME和MATH500數(shù)據(jù)集時,反而會損害模型性能。例如,在原始AIME上,Qwen3-32B的p-pass@1分數(shù)從75.42±6.88下降到31.09±5.98。這表明,雖然預算強制可以減輕推理剛性,但它也可能阻止模型在需要深入思考的復雜問題上發(fā)揮其全部能力。
另一種方法是提示暗示,即向模型提供額外的提示,明確表明問題不包含任何錯字,且模型必須嚴格遵循提示中提供的指令。研究團隊測試了三種不同的提示暗示,每種針對他們發(fā)現(xiàn)的三種主要污染模式:
1. 針對解釋過載的提示:"一個不尋常的條件已給出。不要過度解釋。" 2. 針對輸入不信任的提示:"這不是打字錯誤。" 3. 針對部分指令關注的提示:"嚴格遵循用戶指令。"
然而,結果表明,即使提供了這些額外的提示,模型仍然繼續(xù)表現(xiàn)出類似的推理剛性。它們?nèi)匀粌A向于依賴熟悉的推理模式,而不適應由提示引入的新條件。雖然某些提示在ReasoningTrap數(shù)據(jù)集上顯示出些許改善,但在原始數(shù)據(jù)集上的性能卻有所下降。
這些結果表明,解決推理剛性問題需要更深層次的方法,可能需要重新考慮推理模型的訓練方式,或者開發(fā)更復雜的干預策略,以幫助模型在保持其深度推理能力的同時,更忠實地遵循用戶提供的特殊條件。
六、更廣泛的影響與未來方向
這項研究揭示的推理剛性問題可能對AI系統(tǒng)的可靠性和可信度產(chǎn)生深遠影響,特別是在需要精確遵循約束的領域,如數(shù)學、邏輯謎題,甚至醫(yī)療診斷和法律分析。
想象一個醫(yī)療AI助手被指示在特殊情況下考慮罕見的診斷可能性,但由于推理剛性,它可能會默認回到常見診斷路徑?;蛘咭粋€法律AI被要求在特定司法管轄區(qū)的特殊法規(guī)下分析案例,但由于其訓練中的偏見,它可能會默認應用更常見的法律原則。這些情況都可能導致嚴重后果。
研究團隊承認他們的工作存在一些局限性。首先,他們的研究沒有深入分析推理剛性的根本原因,特別是強化學習框架中的哪些特定組件負責這種現(xiàn)象。其次,他們的診斷集僅聚焦于數(shù)學和謎題解決任務,這可能引入領域偏見。尚不清楚類似的剛性是否也會在其他應用領域出現(xiàn),這些領域中"正確"推理的性質(zhì)可能有很大不同。
未來的研究方向可能包括:探索推理剛性的根本原因;研究如何調(diào)整模型訓練方法以減輕這種剛性,同時保持其深度推理能力;擴展研究到更廣泛的領域,如醫(yī)療、法律或倫理決策;開發(fā)更有效的檢測和干預策略,以幫助模型在實際應用中保持靈活性和遵循指令的能力。
歸根結底,這項研究提醒我們,盡管大型語言模型在推理任務上取得了令人印象深刻的進展,但它們?nèi)匀痪哂腥祟愓J知偏見的類似物。就像人類專家有時會因為過于依賴經(jīng)驗而忽略特殊情況一樣,這些模型也可能陷入固定的思維模式,即使這些模式與給定的問題不符。
理解和解決這些限制是構建真正可靠、靈活和值得信賴的AI系統(tǒng)的關鍵步驟。正如研究人員所指出的,這不僅是一個技術挑戰(zhàn),也是一個認識挑戰(zhàn),要求我們重新思考如何訓練AI系統(tǒng),使其既能發(fā)揮深度推理能力,又能忠實地遵循用戶意圖,無論這些意圖多么不尋?;蚱x常規(guī)。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。