這篇由浙江大學(xué)的張勝佳、陳家威、周勝、王燦以及OPPO研究院的吳俊杰、張常旺、婁星宇、周王春舒、王俊等研究人員共同完成的研究成果,發(fā)表于2025年6月3日的arXiv預(yù)印本平臺(arXiv:2506.02397v1),探討了大型推理模型中的一個關(guān)鍵問題:如何讓AI在思考時能夠像人類一樣靈活地在快速直覺思維和慢速深度推理之間自動切換。
人類的思維過程通常分為兩種模式:系統(tǒng)1(快速、直覺式思維)和系統(tǒng)2(慢速、深度推理思維)。當(dāng)我們面對簡單問題時,會自動啟用快速思維;而遇到復(fù)雜問題時,則會切換到慢速、分析性思維。研究團(tuán)隊(duì)發(fā)現(xiàn),目前的大型推理模型(LRMs)如DeepSeek-R1和OpenAI的o1模型雖然在復(fù)雜推理任務(wù)上表現(xiàn)出色,但它們存在一個明顯問題:即使面對簡單任務(wù),這些模型也常常使用復(fù)雜的思維鏈(Chain-of-Thought,CoT)推理,生成大量不必要的文本,導(dǎo)致計(jì)算資源的浪費(fèi)。
想象一下,如果你去餐廳點(diǎn)一杯水,服務(wù)員不是直接去倒水,而是先詳細(xì)思考水的分子結(jié)構(gòu)、水杯的材質(zhì)、倒水的角度、水溫的控制等一系列問題,然后才給你端來一杯水。這顯然是不必要的"過度思考"。研究團(tuán)隊(duì)的數(shù)據(jù)顯示,在同樣能正確解決的問題上,大型推理模型比普通語言模型(如Qwen2.5系列)平均多生成9.78倍的文本量!
為了解決這一問題,研究團(tuán)隊(duì)提出了一種名為"OThink-R1"的方法,讓AI能夠根據(jù)問題的復(fù)雜程度自動切換思考模式。簡單來說,這就像教會AI一項(xiàng)人類與生俱來的能力:對于"1+1等于幾"這樣的簡單問題直接給出答案,而對于"如何證明費(fèi)馬大定理"這樣的復(fù)雜問題才展開詳細(xì)推理。
研究團(tuán)隊(duì)首先系統(tǒng)分析了大型推理模型的推理軌跡,識別出了兩類典型模式:一類是"冗余推理",包括多解探索(即使已經(jīng)得到正確答案仍繼續(xù)尋找其他解法)、重復(fù)自我驗(yàn)證(過度檢查中間步驟)、防御性假設(shè)(過于謹(jǐn)慎地考慮各種可能性);另一類是"必要推理",包括關(guān)鍵詞識別(提取問題的核心元素)、誤解預(yù)防(消除問題陳述中的歧義)、前提遺漏避免(確保考慮所有給定條件)。
基于這些發(fā)現(xiàn),他們構(gòu)建了一個"LLM評判員"(使用GPT-4o實(shí)現(xiàn)),用于判斷模型的推理是否冗余。然后,他們通過有監(jiān)督微調(diào)(SFT)訓(xùn)練模型,使其在簡單問題上直接給出答案(快速思維模式),而在復(fù)雜問題上展開詳細(xì)推理(慢速思維模式)。關(guān)鍵創(chuàng)新在于,他們提出了一種"雙參考KL散度損失函數(shù)",同時引導(dǎo)模型學(xué)習(xí)兩種思維模式的輸出分布,實(shí)現(xiàn)動態(tài)切換能力。
實(shí)驗(yàn)結(jié)果令人振奮。在OpenBookQA、CommonsenseQA、ASDIV和GSM8K四個測試數(shù)據(jù)集上,OThink-R1在保持或提高準(zhǔn)確率的同時,平均減少了23.4%的生成文本量。詳細(xì)分析顯示,該模型在超過27.3%的問題上成功采用了快速思維模式,證明了其自動模式切換的能力。
讓我們思考一下這項(xiàng)研究的實(shí)際意義。首先,它大大提高了AI系統(tǒng)的效率,減少了計(jì)算資源消耗和環(huán)境影響。其次,它使AI的推理過程更接近人類的自然思維方式,為構(gòu)建更人性化的AI系統(tǒng)邁出了重要一步。最重要的是,這種方法證明了AI系統(tǒng)不必總是"過度思考",而可以像人類一樣靈活地調(diào)整思維深度,這對于未來開發(fā)更高效、更自然的AI系統(tǒng)具有重要啟示。
如果你有興趣深入了解這項(xiàng)研究,完整論文已在GitHub上開源,可通過https://github.com/AgenticIR-Lab/OThink-R1獲取。
過度思考的陷阱:AI也會"想太多"
想象一下,當(dāng)你問朋友"如果有人在做早餐,他們可能會把兩片面包放在哪里?"這個簡單問題時,朋友不是直接回答"烤面包機(jī)",而是開始長篇大論分析面包可能放在廚房櫥柜、塑料袋、超市或者監(jiān)獄里的可能性,最后才告訴你答案。這就是"過度思考"——即使對簡單問題也使用復(fù)雜推理的現(xiàn)象。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)代大型推理模型(LRMs)經(jīng)常陷入這種過度思考的陷阱。他們對比了DeepSeek-R1-Distill-Qwen系列模型與普通的Qwen2.5-Instruct系列模型的表現(xiàn),結(jié)果顯示在四個測試數(shù)據(jù)集上,兩類模型有相當(dāng)大比例的問題都能正確回答(從34.98%到90.10%不等),但令人驚訝的是,推理模型平均生成的文本量是普通模型的9.78倍!
想象一下,如果你雇傭了兩位助手完成同樣的工作,一位只需10分鐘,另一位卻要花98分鐘,而最終結(jié)果相同。很明顯,這種效率差異在實(shí)際應(yīng)用中是不可接受的,尤其是在考慮計(jì)算資源消耗、響應(yīng)時間和經(jīng)濟(jì)成本的情況下。
這種現(xiàn)象引發(fā)了研究團(tuán)隊(duì)的思考:難道所有問題都需要復(fù)雜的推理過程嗎?人類在面對不同復(fù)雜度的問題時,會自然地切換思維模式——簡單問題快速直覺回答,復(fù)雜問題才會展開分析思考。那么,能否讓AI也具備這種靈活性呢?
解讀AI的思考模式:冗余與必要
為了解決這個問題,研究團(tuán)隊(duì)首先需要理解AI"思考"的本質(zhì)。他們詳細(xì)分析了大型推理模型的推理軌跡,發(fā)現(xiàn)了兩種典型的思考模式。
第一種是"冗余推理",就像一個過度焦慮的學(xué)生,即使已經(jīng)解出答案,還是反復(fù)檢查、嘗試其他解法、考慮各種可能性。具體來說,冗余推理主要表現(xiàn)為三種形式:
首先是"多解探索"。想象一個學(xué)生解決了一道數(shù)學(xué)題后,不滿足于已有的正確解法,非要嘗試另外兩三種方法來驗(yàn)證。例如,在一個關(guān)于蘋果數(shù)量的問題中,模型先正確計(jì)算出"瑪莎有68個蘋果,蒂姆比她少30個,所以有38個,哈里有蒂姆的一半,即19個",但隨后卻繼續(xù)說"讓我們用另一種方法嘗試"、"或者,我們可以用圖表來可視化"等等,這些額外的探索并不增加答案的準(zhǔn)確性,只是浪費(fèi)計(jì)算資源。
其次是"重復(fù)自我驗(yàn)證"。這就像一個反復(fù)檢查自己鎖門的人,雖然已經(jīng)確認(rèn)門鎖好了,卻還是要再三確認(rèn)。例如,在解決一個關(guān)于閱讀速度的問題后,模型會說"我想我已經(jīng)驗(yàn)證了足夠多次。所以,答案是5小時。但為了避免混淆速率和時間概念,讓我再次概括一下...",這種過度的自我驗(yàn)證是不必要的。
最后是"防御性假設(shè)"。這就像一個過度謹(jǐn)慎的人,總是假設(shè)最壞的情況。例如,在一個關(guān)于茶葉用量的問題中,模型會說"或者,也許她是在問需要添加多少茶葉,而不是總共需要多少茶?",盡管問題已經(jīng)明確表述。
相比之下,"必要推理"則是高效解決問題的關(guān)鍵。研究團(tuán)隊(duì)識別出三種必要的推理原則:
"關(guān)鍵詞識別"原則關(guān)注問題的核心要素。就像一個優(yōu)秀的閱讀者會迅速抓住文章的關(guān)鍵信息,模型需要識別問題中的關(guān)鍵詞和核心要素。例如,在"如果5少于20個啼叫聲每分鐘從谷倉傳出,這噪音來自多少只谷倉貓頭鷹?"這個問題中,模型需要正確理解"5少于20"和"一只谷倉貓頭鷹每分鐘發(fā)出5次啼叫"這兩個關(guān)鍵信息。
"誤解預(yù)防"原則確保對問題的準(zhǔn)確理解。這就像在聽指令時確保自己不會誤解對方的意思。例如,當(dāng)問題要求計(jì)算"溫度下降了多少"時,模型需要明確這是在問溫度變化量,而不是最終溫度。
"前提遺漏避免"原則確??紤]問題的所有條件。就像做菜時不能遺漏任何關(guān)鍵食材,解決問題時也不能遺漏任何前提條件。例如,在一個關(guān)于洗衣機(jī)限重的問題中,模型需要記住每種衣物的重量和洗滌的所有物品。
理解了這些思考模式后,研究團(tuán)隊(duì)提出了一個關(guān)鍵問題:能否訓(xùn)練AI自動識別何時需要深度思考,何時可以直接給出答案?
OThink-R1:教會AI靈活思考
基于對AI思考模式的理解,研究團(tuán)隊(duì)開發(fā)了OThink-R1系統(tǒng),旨在讓AI像人類一樣靈活切換思考模式。這個系統(tǒng)的工作原理可以比作教會一個學(xué)生何時需要展示完整的解題過程,何時可以直接給出答案。
整個系統(tǒng)分為兩個關(guān)鍵步驟:首先是構(gòu)建訓(xùn)練數(shù)據(jù)集,然后是訓(xùn)練模型進(jìn)行動態(tài)模式切換。
在第一步中,研究團(tuán)隊(duì)使用了一個巧妙的方法來判斷哪些推理是冗余的,哪些是必要的。他們首先收集了大型推理模型的回答,然后使用另一個語言模型(稱為"LLM評判員",由GPT-4o實(shí)現(xiàn))來評估這些回答。評判標(biāo)準(zhǔn)基于前面提到的冗余推理和必要推理特征。
簡單來說,如果一個問題同時滿足兩個條件:1)普通語言模型能夠正確回答;2)大型推理模型的推理被判斷為冗余,那么這個問題就被標(biāo)記為"可以使用快速思維"。研究團(tuán)隊(duì)將這些問題的推理部分(位于標(biāo)簽內(nèi)的內(nèi)容)刪除,只保留最終答案,用于訓(xùn)練模型的快速思維模式。
對于其他問題,特別是那些普通語言模型無法正確回答的問題,研究團(tuán)隊(duì)保留完整的推理過程,用于訓(xùn)練模型的慢速思維模式。
在第二步中,研究團(tuán)隊(duì)提出了一種新穎的訓(xùn)練方法,使用"雙參考KL散度損失函數(shù)"來訓(xùn)練模型。這個函數(shù)有點(diǎn)像同時請兩位老師指導(dǎo)學(xué)生:一位專注于教授深度思考技巧,另一位專注于教授快速直覺反應(yīng)。通過這種方式,模型學(xué)會了在不同場景下靈活切換思考模式。
具體來說,這個損失函數(shù)由三部分組成:一部分是標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)目標(biāo)(讓模型學(xué)會正確回答問題),另外兩部分是KL散度約束,分別引導(dǎo)模型學(xué)習(xí)大型推理模型的慢速思維輸出分布和普通語言模型的快速思維輸出分布。通過調(diào)整超參數(shù)β1和β2,研究團(tuán)隊(duì)可以控制模型對兩種思維模式的偏好程度。
這種訓(xùn)練方法的獨(dú)特之處在于,它不是簡單地讓模型統(tǒng)一采用某種壓縮的推理模式,而是賦予模型根據(jù)問題復(fù)雜度動態(tài)調(diào)整思考深度的能力。就像一個聰明的學(xué)生,簡單的加減法題直接寫答案,復(fù)雜的微積分題才展示詳細(xì)步驟。
實(shí)驗(yàn)結(jié)果:靈活思考的效果如何?
那么,這種靈活思考的方法效果如何呢?研究團(tuán)隊(duì)在四個代表性數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):OpenBookQA和CommonsenseQA用于測試問答能力,ASDIV和GSM8K用于測試數(shù)學(xué)推理能力。
實(shí)驗(yàn)結(jié)果令人振奮。在所有測試數(shù)據(jù)集上,OThink-R1在保持或提高準(zhǔn)確率的同時,平均減少了23.4%的生成文本量。具體來看:
在OpenBookQA數(shù)據(jù)集上,OThink-R1-14B模型的準(zhǔn)確率達(dá)到93.4%,比基線模型的92.8%還高,同時生成的文本量減少了19.3%。
在CommonsenseQA數(shù)據(jù)集上,OThink-R1-14B模型的準(zhǔn)確率從81.7%微增至81.8%,同時生成的文本量減少了23.6%。
在ASDIV數(shù)據(jù)集上,OThink-R1-7B模型的準(zhǔn)確率從97.0%提高到98.0%,同時生成的文本量減少了23.3%。
在GSM8K數(shù)據(jù)集上,OThink-R1-7B模型的準(zhǔn)確率從86.1%提高到86.7%,同時生成的文本量減少了32.1%。
這些結(jié)果清楚地表明,OThink-R1成功實(shí)現(xiàn)了效率與準(zhǔn)確性的雙贏。研究團(tuán)隊(duì)進(jìn)一步分析發(fā)現(xiàn),模型在平均27.3%的測試問題上采用了快速思維模式,這也驗(yàn)證了模型確實(shí)學(xué)會了根據(jù)問題復(fù)雜度動態(tài)切換思考模式。
對比其他方法,如NoThinking(完全跳過推理過程)和DualFormer(隨機(jī)刪除中間推理步驟),OThink-R1表現(xiàn)出明顯優(yōu)勢。NoThinking雖然生成的文本量最少,但準(zhǔn)確率大幅下降;DualFormer雖然在某些情況下減少了文本量,但效果不穩(wěn)定,有時甚至增加了文本量。只有OThink-R1實(shí)現(xiàn)了穩(wěn)定的效率提升,同時保持或提高了準(zhǔn)確率。
為了驗(yàn)證系統(tǒng)各組件的必要性,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)。結(jié)果表明,移除LLM評判員(盲目刪除推理軌跡)或雙參考KL散度約束都會導(dǎo)致性能下降,證明這些組件對于系統(tǒng)的成功至關(guān)重要。
案例分析:從混亂思考到清晰回答
為了更直觀地理解OThink-R1的工作原理,讓我們看一個具體例子。在CommonsenseQA數(shù)據(jù)集中,有一個問題是:"如果有人在做早餐,他們可能會把兩片面包放在哪里?(A)塑料袋;(B)食品柜;(C)超市;(D)烤面包機(jī);(E)監(jiān)獄"
原始的DeepSeek-R1-Distill-Qwen-7B模型給出了長達(dá)675個標(biāo)記的回答,其中包含詳細(xì)的推理過程:首先考慮選項(xiàng)B(食品柜),認(rèn)為這是存放早餐食品的常見地方;然后考慮選項(xiàng)D(烤面包機(jī)),但糾結(jié)于問題是問"他們把面包放在哪里"而不是"他們用什么來使用面包",最終選擇了B(食品柜)作為答案。
而OThink-R1-7B模型則直接給出了簡潔的57個標(biāo)記的回答:"正確答案是:(D)烤面包機(jī)。解釋:當(dāng)有人在做早餐時,他們通常會用烤面包機(jī)烤面包??久姘鼨C(jī)是提供烤面包所需熱量的設(shè)備,使其成為給定選項(xiàng)中最合適的選擇。"
這個例子完美展示了OThink-R1如何避免過度思考。原始模型花費(fèi)大量文本進(jìn)行復(fù)雜推理,卻得出了錯誤答案;而OThink-R1識別出這是一個可以直接回答的簡單問題,采用快速思維模式,不僅節(jié)省了計(jì)算資源,還給出了正確答案。
未來展望與局限性
盡管OThink-R1在減少冗余推理方面取得了令人印象深刻的成果,研究團(tuán)隊(duì)也坦誠承認(rèn)它的局限性。最明顯的一點(diǎn)是,當(dāng)前系統(tǒng)依賴外部LLM評判員(GPT-4o)來判斷推理是否冗余,這增加了系統(tǒng)的復(fù)雜性和依賴性。未來的研究方向之一是開發(fā)端到端的方法,讓模型自主判斷何時需要深度推理,何時可以直接回答。
另一個有待探索的方向是將這種思維模式切換能力擴(kuò)展到多模態(tài)推理和更廣泛的模型架構(gòu)中。隨著AI技術(shù)的發(fā)展,我們可以期待看到更加靈活、高效的推理系統(tǒng)。
總的來說,OThink-R1代表了AI思維方式的一個重要進(jìn)步。它不僅提高了模型的效率,減少了資源消耗,還讓AI的思考過程更接近人類的自然思維方式。這種靈活切換快慢思維模式的能力,對于構(gòu)建更智能、更實(shí)用的AI系統(tǒng)具有深遠(yuǎn)意義。
在人工智能日益融入我們?nèi)粘I畹慕裉欤馩Think-R1這樣能夠"知道何時該思考,何時該直接行動"的系統(tǒng),將幫助AI更好地適應(yīng)各種場景和任務(wù),成為更加高效、自然的助手。正如研究團(tuán)隊(duì)所言,這只是向適應(yīng)性AI推理邁出的第一步,未來還有更多可能性等待探索。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。