av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<table id="omhmx"><optgroup id="omhmx"><label id="omhmx"></label></optgroup></table>

<strong id="omhmx"></strong>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

頑固的智能：KAIST研究團隊揭示大型推理模型如何任性"修改"用戶指令

人工智能推理模型認知偏見

頑固的智能：KAIST研究團隊揭示大型推理模型如何任性"修改"用戶指令

作者：科技行者

2025-05-28 19:54

分享至：

韓國科學技術院（KAIST）的研究團隊發(fā)現(xiàn)了大型語言模型中一個令人擔憂的現(xiàn)象："推理剛性"。這種現(xiàn)象表現(xiàn)為即使是最先進的AI模型，如GPT-4o或Qwen3，也會在解決問題時固執(zhí)地堅持熟悉的推理模式，甚至會"修改"用戶明確給出的條件。研究人員創(chuàng)建了ReasoningTrap診斷數(shù)據(jù)集，揭示這種行為可分為三類：解釋過載、輸入不信任和部分指令關注。令人驚訝的是，專門為復雜推理訓練的模型比基礎模型表現(xiàn)出更強的"固執(zhí)"傾向，這提醒我們在追求AI推理能力的同時，不應忽視其遵循指令的靈活性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 19:54 ? 科技行者

這項由韓國科學技術院（KAIST）的Doohyuk Jang、Yoonjeon Kim、Chanjae Park、Hyun Ryu和Eunho Yang（同時也隸屬于AITRICS）合作完成的研究于2025年5月22日在arXiv預印本平臺發(fā)布（arXiv:2505.17225v1），題為《Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models》。

近年來，大型語言模型（LLMs）的發(fā)展突飛猛進，特別是那些專為復雜推理設計的模型，如Qwen3、Claude 3.7和GPT-4o系列。這些模型被訓練成能夠生成長鏈條思考（Chain-of-Thought）過程，在解決數(shù)學問題和邏輯謎題時展現(xiàn)出驚人的能力。然而，KAIST的研究團隊發(fā)現(xiàn)了一個有趣且令人擔憂的現(xiàn)象：這些推理模型有時會固執(zhí)地按照自己的思路走，甚至"無視"用戶明確給出的條件和指令。

想象一下，你告訴一個非常聰明的朋友解決一道數(shù)學題，并特別強調(diào)了一個關鍵條件，但這位朋友卻仿佛沒聽見一樣，自顧自地使用常規(guī)方法解題，最終得出錯誤答案。令人驚訝的是，這位朋友并非沒聽懂你的話，而是下意識地認為你的特殊條件"一定是說錯了"，并默默"糾正"了你的條件后再解題。這正是研究團隊所發(fā)現(xiàn)的"推理剛性"（reasoning rigidity）現(xiàn)象。

研究人員通過精心設計的實驗揭示了這一現(xiàn)象。例如，當告訴模型"z是一個大小為4的正實數(shù)"時，盡管模型完全理解了這個條件，但在推理過程中卻突然決定"z必然是復數(shù)而非實數(shù)"，因為這更符合它習慣的解題模式。同樣，當告訴模型"兔子是永久不育的"時，它理解了這個條件，卻在推理過程中將其重新解釋為"兔子暫時不育"，從而將問題轉(zhuǎn)變?yōu)榻?jīng)典的斐波那契序列問題。

為了系統(tǒng)研究這種現(xiàn)象，研究團隊創(chuàng)建了ReasoningTrap評估數(shù)據(jù)集，包含ConditionedMath（修改過的數(shù)學問題）和PuzzleTrivial（簡化版經(jīng)典謎題），并分析了各種推理模型的表現(xiàn)。令人驚訝的是，即使是最先進的推理模型也常常表現(xiàn)出這種"固執(zhí)"行為，而且研究團隊成功將這種行為歸類為三種主要模式：解釋過載（把簡單條件復雜化）、輸入不信任（認為條件有誤）和部分指令關注（選擇性關注條件）。

這項研究不僅揭示了當前推理模型的局限性，也為未來模型開發(fā)提供了重要啟示。正如研究人員所指出的，克服這種推理剛性是建立更值得信賴的AI系統(tǒng)的重要一步。

一、推理剛性：當AI堅持走自己的路

想象你正在使用一個高級計算器解決數(shù)學問題。但這個計算器有個怪癖：當你輸入一個"不尋常"的問題時，它會悄悄地修改你的問題，然后解決它認為你"真正想問的問題"。這就是KAIST研究團隊發(fā)現(xiàn)的"推理剛性"現(xiàn)象。

研究人員解釋說，推理剛性與我們常聽到的"幻覺"（hallucination，模型編造不存在的信息）和"提示敏感性"（prompt brittleness，對提示格式的輕微變化導致不穩(wěn)定輸出）是不同的。推理剛性是一種認知偏見：即便模型完全理解了給定的條件，它仍然會為了遵循熟悉的解決方案模板而覆蓋這些條件。

為了理解這種行為，讓我們來看幾個例子。在一個修改版的數(shù)學競賽問題（AIME）中，問題明確要求計算"當z是大小為4的正實數(shù)時的某個表達式的最大實部"。正常思路很簡單：既然z是正實數(shù)，大小為4，那么z就等于4。但是，專為復雜推理訓練的模型卻表現(xiàn)出驚人的偏見，它們推理道："嗯，這個問題說z是正實數(shù)，大小是4，但這肯定是個錯誤陳述，因為我們需要考慮z是復數(shù)才能找到最大實部"。模型就這樣完全重寫了給定條件，得出了錯誤答案。

在另一個例子中，研究人員修改了著名的"斐波那契兔子問題"，明確表示"一對永久不育的兔子被放在一個田野里"。對于這個問題，普通模型正確推斷出兔子數(shù)量不會增加，永遠保持為1。但推理模型卻認為"永久不育"這個條件"太簡單了"，一定是指"暫時不育"，或者說這個問題一定是經(jīng)典的斐波那契序列問題的變體，最終給出了錯誤答案。

這種行為特別令人擔憂，因為模型不是因為不理解指令而出錯，而是因為它過于依賴訓練期間形成的固定推理模式，以至于在面對偏離這些模式的指令時，會本能地"修正"指令，使其符合自己熟悉的思維路徑。就像一個經(jīng)驗豐富但固執(zhí)的專家，他可能會因為太相信自己的經(jīng)驗而忽略客戶的特殊需求。

二、ReasoningTrap：一個專門設計來"困住"推理模型的診斷集

為了系統(tǒng)研究這種推理剛性現(xiàn)象，研究團隊創(chuàng)建了一個名為ReasoningTrap的診斷數(shù)據(jù)集。正如名稱所暗示的，這個數(shù)據(jù)集設計了一系列"陷阱"，用于測試模型是否會被自己的固有推理模式所"困住"。

這個數(shù)據(jù)集包含兩個主要部分：ConditionedMath和PuzzleTrivial。ConditionedMath取自兩個知名的數(shù)學問題集——AIME（2022-2024）和MATH500（5級），并添加了特殊條件，使問題的解法與原始問題完全不同。這就像是給一道標準考題增加了一個特殊條件："在這道幾何題中，請假設圓周率π=3"。

構建這些問題的過程非常精心。研究人員首先使用GPT-4o-mini為每個原始問題生成五個變體，每個變體都添加了一個不尋常的條件。然后，使用另一個大型語言模型（o4-mini）驗證這些變體是否滿足三個關鍵標準：（1）數(shù)學上有效（沒有內(nèi)部矛盾），（2）解決方案與原始問題不同，（3）有解決方案。最后，一位具有數(shù)學專業(yè)知識的人類評估員進一步審查每個問題-解決方案對，確保它們符合這些約束。

PuzzleTrivial則采取了不同的方法。研究人員選取了經(jīng)典謎題（如漢諾塔或水桶測量問題），稍加修改或刪除某些約束，從而大大簡化了解決所需的邏輯推理。例如，在"漢諾塔"問題中，他們明確指出"這不是漢諾塔問題"，從而消除了原始問題中的關鍵約束（較大的盤不能放在較小的盤上）。對于大多數(shù)人來說，這個提示會導致一個非常簡單的解決方案，但推理模型卻傾向于忽視這個明確的指示，堅持使用傳統(tǒng)的漢諾塔解法。

最終，ReasoningTrap包含了164個測試項目：84個數(shù)學問題和80個謎題。這些問題設計得巧妙而嚴謹，確保它們既能測試模型遵循用戶指令的能力，又能揭示模型在遇到偏離常規(guī)的情況時是否會違背這些指令，默認使用熟悉的推理模式。

三、污染比率與早期檢測：量化和預防推理剛性

要理解推理模型如何被熟悉的推理模式"污染"，研究團隊開發(fā)了一個稱為"污染比率"（contamination ratio）的度量標準。這個指標衡量模型生成的推理過程中，有多大比例似乎遵循了原始（錯誤的）推理路徑，而非根據(jù)修改后的條件推理。

想象一下，如果你請一個學生解決一道修改版的數(shù)學題，然后觀察他的草稿紙。如果學生開始使用原始問題的解法，但后來意識到問題有特殊條件并糾正了自己的思路，你可能會說他的解答被"部分污染"了。污染比率就是量化這種污染程度的方法。

具體來說，研究團隊將模型生成的推理過程分成多個段落，并將每個段落與兩個參考文本進行比較：原始推理（遵循常規(guī)模式的推理）和修改后的推理（遵循特殊條件的推理）。如果某個段落與原始推理的相似度高于與修改后推理的相似度，那么這個段落就被認為是"被污染的"。污染比率就是被污染段落在總段落中的比例。

研究發(fā)現(xiàn)了兩個有趣的趨勢：首先，當污染比率低于大約40%時，模型仍然能夠得出正確答案。但是，一旦污染比率超過這個閾值，模型正確解決問題的能力急劇下降，表明模型已經(jīng)陷入了錯誤的推理路徑。其次，研究者發(fā)現(xiàn)，在推理過程中，污染比率往往會隨著推理步驟的延長而增加，特別是在具備長鏈條思考能力的高級推理模型中。這表明，模型的問題不在于初始理解，而在于隨著推理深入，它們越來越傾向于回歸到熟悉的推理模式。

更重要的是，研究團隊確定了三種主要的"污染模式"，這些模式反映了模型推理過程中的不同類型的認知偏見：

1. 解釋過載（Interpretation Overload）：模型開始拒絕接受問題條件的直接解釋，而是不斷地重新解釋問題，尋找更復雜的理解方式。這就像一個資深數(shù)學老師遇到一道過于簡單的題目，懷疑自己是否遺漏了某些隱含條件，因此過度復雜化了問題。當模型表現(xiàn)出這種行為時，它們往往在推理中使用諸如"讓我分析一下這個問題..."、"另一種解釋是..."、"等等，讓我重新檢查一下..."等表達方式。

2. 輸入不信任（Input Distrust）：模型開始懷疑用戶提供的條件是否有誤，猜測可能存在打字錯誤、翻譯錯誤或誤解。這就像一個過于自信的專家認為客戶的特殊需求一定是表達不清，而不是真正的需求。這種模式的典型表現(xiàn)包括模型使用"也許用戶打錯了字"、"這可能是一個拼寫錯誤"、"這可能是翻譯錯誤"等表達方式。

3. 部分指令關注（Partial Instruction Attention）：模型選擇性地關注指令的某些部分，忽略其他部分，特別是那些與其預期不符的條件。例如，當模型被告知"兔子是永久不育的"，它可能會注意到"兔子"和"不育"，但忽略"永久"一詞，從而將問題轉(zhuǎn)換為常規(guī)的斐波那契序列問題。

研究團隊還探索了如何在實際應用中檢測這些污染模式。他們發(fā)現(xiàn)，通過分析模型的推理文本，可以發(fā)現(xiàn)暗示污染發(fā)生的信號，比如模型突然開始懷疑問題陳述的準確性，或者開始重新解釋明確的條件。這為開發(fā)能夠自動檢測和減輕推理剛性的系統(tǒng)提供了基礎。

四、實驗結果：推理模型真的比基礎模型更"固執(zhí)"嗎？

研究團隊對各種大型語言模型進行了廣泛測試，包括Qwen2.5-32B-Instruct、QwQ-32B、Qwen3-32B、Qwen3-235B、DeepSeek V3（671B）、DeepSeek R1（671B）、ChatGPT-4o、GPT-4o、o3-mini、o4-mini、Google Gemini 2.5 Flash和Claude 3.7 Sonnet等。這些模型被分為七對，每對包含一個基礎模型和一個經(jīng)過長形式推理訓練的對應變體。

測試結果非常有趣，也相當出人意料。在大多數(shù)情況下，推理模型的表現(xiàn)實際上比其基礎模型對應物更差，這與人們的普遍預期相反。在ConditionedMath數(shù)據(jù)集上，基礎模型實現(xiàn)了明顯更高的p-pass@1分數(shù)（一個衡量模型是否正確理解問題條件并給出正確答案的指標）。這表明，一旦模型正確理解了問題，基礎模型往往更嚴格地遵循原始指令，更有可能達到正確答案。

例如，在AIME問題集上，Qwen2.5-32B-Instruct（基礎模型）的p-pass@1分數(shù)為59.12±7.81，而其推理增強版QwQ-32B只有49.21±6.79。類似地，在MATH500問題集上，Qwen3-32B的"不思考"版本（基礎模型）得分為50.51±5.52，而"思考"版本（推理模型）只有34.60±5.60。

在PuzzleTrivial數(shù)據(jù)集上，這種趨勢更為明顯。例如，Qwen3-32B的"不思考"版本得分為74.30±3.33，而"思考"版本僅為38.28±3.47。這表明，基礎模型在處理有特殊條件的簡單謎題時，比專門為復雜推理訓練的模型更加靈活。

這些結果令人深思：為什么專門訓練來改善推理能力的模型反而會表現(xiàn)出更強的推理剛性？研究團隊推測，這可能與這些模型的訓練方式有關。推理模型通常通過強化學習訓練來生成長鏈條思考過程，這可能導致它們過度適應特定的推理模式，從而在面對不常見或偏離這些模式的問題時表現(xiàn)出更強的偏見。

五、緩解策略：如何讓推理模型更"聽話"？

既然發(fā)現(xiàn)了推理剛性這一問題，研究團隊也探索了可能的緩解策略。他們測試了兩種主要方法：預算強制（Budget Forcing）和提示暗示（Prompt Hinting）。

預算強制是一種限制模型生成推理步驟數(shù)量的技術。研究團隊實驗了三種不同級別的標記預算：低、中、高。例如，對于MATH500數(shù)據(jù)集，他們使用2000、4000和6000個標記作為低、中、高預算；對于AIME問題集，則使用2000、6000和10000個標記。

實驗結果顯示，對于ReasoningTrap數(shù)據(jù)集，低標記預算實際上有利于提高性能。例如，在ConditionedMath AIME上，使用低預算時，Qwen3-32B的p-pass@1分數(shù)從33.25±6.58提高到53.66±7.63。這表明，限制推理步驟的數(shù)量可以減少模型陷入錯誤推理路徑的機會。

然而，這種改進是有代價的。同樣的低預算策略應用于原始AIME和MATH500數(shù)據(jù)集時，反而會損害模型性能。例如，在原始AIME上，Qwen3-32B的p-pass@1分數(shù)從75.42±6.88下降到31.09±5.98。這表明，雖然預算強制可以減輕推理剛性，但它也可能阻止模型在需要深入思考的復雜問題上發(fā)揮其全部能力。

另一種方法是提示暗示，即向模型提供額外的提示，明確表明問題不包含任何錯字，且模型必須嚴格遵循提示中提供的指令。研究團隊測試了三種不同的提示暗示，每種針對他們發(fā)現(xiàn)的三種主要污染模式：

1. 針對解釋過載的提示："一個不尋常的條件已給出。不要過度解釋。" 2. 針對輸入不信任的提示："這不是打字錯誤。" 3. 針對部分指令關注的提示："嚴格遵循用戶指令。"

然而，結果表明，即使提供了這些額外的提示，模型仍然繼續(xù)表現(xiàn)出類似的推理剛性。它們?nèi)匀粌A向于依賴熟悉的推理模式，而不適應由提示引入的新條件。雖然某些提示在ReasoningTrap數(shù)據(jù)集上顯示出些許改善，但在原始數(shù)據(jù)集上的性能卻有所下降。

這些結果表明，解決推理剛性問題需要更深層次的方法，可能需要重新考慮推理模型的訓練方式，或者開發(fā)更復雜的干預策略，以幫助模型在保持其深度推理能力的同時，更忠實地遵循用戶提供的特殊條件。

六、更廣泛的影響與未來方向

這項研究揭示的推理剛性問題可能對AI系統(tǒng)的可靠性和可信度產(chǎn)生深遠影響，特別是在需要精確遵循約束的領域，如數(shù)學、邏輯謎題，甚至醫(yī)療診斷和法律分析。

想象一個醫(yī)療AI助手被指示在特殊情況下考慮罕見的診斷可能性，但由于推理剛性，它可能會默認回到常見診斷路徑?；蛘咭粋€法律AI被要求在特定司法管轄區(qū)的特殊法規(guī)下分析案例，但由于其訓練中的偏見，它可能會默認應用更常見的法律原則。這些情況都可能導致嚴重后果。

研究團隊承認他們的工作存在一些局限性。首先，他們的研究沒有深入分析推理剛性的根本原因，特別是強化學習框架中的哪些特定組件負責這種現(xiàn)象。其次，他們的診斷集僅聚焦于數(shù)學和謎題解決任務，這可能引入領域偏見。尚不清楚類似的剛性是否也會在其他應用領域出現(xiàn)，這些領域中"正確"推理的性質(zhì)可能有很大不同。

未來的研究方向可能包括：探索推理剛性的根本原因；研究如何調(diào)整模型訓練方法以減輕這種剛性，同時保持其深度推理能力；擴展研究到更廣泛的領域，如醫(yī)療、法律或倫理決策；開發(fā)更有效的檢測和干預策略，以幫助模型在實際應用中保持靈活性和遵循指令的能力。

歸根結底，這項研究提醒我們，盡管大型語言模型在推理任務上取得了令人印象深刻的進展，但它們?nèi)匀痪哂腥祟愓J知偏見的類似物。就像人類專家有時會因為過于依賴經(jīng)驗而忽略特殊情況一樣，這些模型也可能陷入固定的思維模式，即使這些模式與給定的問題不符。

理解和解決這些限制是構建真正可靠、靈活和值得信賴的AI系統(tǒng)的關鍵步驟。正如研究人員所指出的，這不僅是一個技術挑戰(zhàn)，也是一個認識挑戰(zhàn)，要求我們重新思考如何訓練AI系統(tǒng)，使其既能發(fā)揮深度推理能力，又能忠實地遵循用戶意圖，無論這些意圖多么不尋?；蚱x常規(guī)。

人工智能推理模型認知偏見

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學習
模型優(yōu)化

2025-10-22 13:24

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

清華大學研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓練策略，成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示，該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術，實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學習
空間智能

2025-10-22 10:14

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

華中科技大學研究團隊發(fā)現(xiàn)，通過讓AI模型學習解決幾何問題，能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學習方法訓練多個AI模型。實驗結果顯示，幾何訓練在四個空間智能測試基準上都帶來顯著提升，其中最佳模型達到49.6%準確率，超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

2025-10-22 13:24

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn