這篇由浙江大學(xué)的張勝佳、陳家威、周勝、王燦以及OPPO研究院的吳俊杰、張常旺、婁星宇、周王春舒、王俊等研究人員共同完成的研究成果,發(fā)表于2025年6月3日的arXiv預(yù)印本平臺(tái)(arXiv:2506.02397v1),探討了大型推理模型中的一個(gè)關(guān)鍵問(wèn)題:如何讓AI在思考時(shí)能夠像人類一樣靈活地在快速直覺(jué)思維和慢速深度推理之間自動(dòng)切換。
人類的思維過(guò)程通常分為兩種模式:系統(tǒng)1(快速、直覺(jué)式思維)和系統(tǒng)2(慢速、深度推理思維)。當(dāng)我們面對(duì)簡(jiǎn)單問(wèn)題時(shí),會(huì)自動(dòng)啟用快速思維;而遇到復(fù)雜問(wèn)題時(shí),則會(huì)切換到慢速、分析性思維。研究團(tuán)隊(duì)發(fā)現(xiàn),目前的大型推理模型(LRMs)如DeepSeek-R1和OpenAI的o1模型雖然在復(fù)雜推理任務(wù)上表現(xiàn)出色,但它們存在一個(gè)明顯問(wèn)題:即使面對(duì)簡(jiǎn)單任務(wù),這些模型也常常使用復(fù)雜的思維鏈(Chain-of-Thought,CoT)推理,生成大量不必要的文本,導(dǎo)致計(jì)算資源的浪費(fèi)。
想象一下,如果你去餐廳點(diǎn)一杯水,服務(wù)員不是直接去倒水,而是先詳細(xì)思考水的分子結(jié)構(gòu)、水杯的材質(zhì)、倒水的角度、水溫的控制等一系列問(wèn)題,然后才給你端來(lái)一杯水。這顯然是不必要的"過(guò)度思考"。研究團(tuán)隊(duì)的數(shù)據(jù)顯示,在同樣能正確解決的問(wèn)題上,大型推理模型比普通語(yǔ)言模型(如Qwen2.5系列)平均多生成9.78倍的文本量!
為了解決這一問(wèn)題,研究團(tuán)隊(duì)提出了一種名為"OThink-R1"的方法,讓AI能夠根據(jù)問(wèn)題的復(fù)雜程度自動(dòng)切換思考模式。簡(jiǎn)單來(lái)說(shuō),這就像教會(huì)AI一項(xiàng)人類與生俱來(lái)的能力:對(duì)于"1+1等于幾"這樣的簡(jiǎn)單問(wèn)題直接給出答案,而對(duì)于"如何證明費(fèi)馬大定理"這樣的復(fù)雜問(wèn)題才展開(kāi)詳細(xì)推理。
研究團(tuán)隊(duì)首先系統(tǒng)分析了大型推理模型的推理軌跡,識(shí)別出了兩類典型模式:一類是"冗余推理",包括多解探索(即使已經(jīng)得到正確答案仍繼續(xù)尋找其他解法)、重復(fù)自我驗(yàn)證(過(guò)度檢查中間步驟)、防御性假設(shè)(過(guò)于謹(jǐn)慎地考慮各種可能性);另一類是"必要推理",包括關(guān)鍵詞識(shí)別(提取問(wèn)題的核心元素)、誤解預(yù)防(消除問(wèn)題陳述中的歧義)、前提遺漏避免(確??紤]所有給定條件)。
基于這些發(fā)現(xiàn),他們構(gòu)建了一個(gè)"LLM評(píng)判員"(使用GPT-4o實(shí)現(xiàn)),用于判斷模型的推理是否冗余。然后,他們通過(guò)有監(jiān)督微調(diào)(SFT)訓(xùn)練模型,使其在簡(jiǎn)單問(wèn)題上直接給出答案(快速思維模式),而在復(fù)雜問(wèn)題上展開(kāi)詳細(xì)推理(慢速思維模式)。關(guān)鍵創(chuàng)新在于,他們提出了一種"雙參考KL散度損失函數(shù)",同時(shí)引導(dǎo)模型學(xué)習(xí)兩種思維模式的輸出分布,實(shí)現(xiàn)動(dòng)態(tài)切換能力。
實(shí)驗(yàn)結(jié)果令人振奮。在OpenBookQA、CommonsenseQA、ASDIV和GSM8K四個(gè)測(cè)試數(shù)據(jù)集上,OThink-R1在保持或提高準(zhǔn)確率的同時(shí),平均減少了23.4%的生成文本量。詳細(xì)分析顯示,該模型在超過(guò)27.3%的問(wèn)題上成功采用了快速思維模式,證明了其自動(dòng)模式切換的能力。
讓我們思考一下這項(xiàng)研究的實(shí)際意義。首先,它大大提高了AI系統(tǒng)的效率,減少了計(jì)算資源消耗和環(huán)境影響。其次,它使AI的推理過(guò)程更接近人類的自然思維方式,為構(gòu)建更人性化的AI系統(tǒng)邁出了重要一步。最重要的是,這種方法證明了AI系統(tǒng)不必總是"過(guò)度思考",而可以像人類一樣靈活地調(diào)整思維深度,這對(duì)于未來(lái)開(kāi)發(fā)更高效、更自然的AI系統(tǒng)具有重要啟示。
如果你有興趣深入了解這項(xiàng)研究,完整論文已在GitHub上開(kāi)源,可通過(guò)https://github.com/AgenticIR-Lab/OThink-R1獲取。
過(guò)度思考的陷阱:AI也會(huì)"想太多"
想象一下,當(dāng)你問(wèn)朋友"如果有人在做早餐,他們可能會(huì)把兩片面包放在哪里?"這個(gè)簡(jiǎn)單問(wèn)題時(shí),朋友不是直接回答"烤面包機(jī)",而是開(kāi)始長(zhǎng)篇大論分析面包可能放在廚房櫥柜、塑料袋、超市或者監(jiān)獄里的可能性,最后才告訴你答案。這就是"過(guò)度思考"——即使對(duì)簡(jiǎn)單問(wèn)題也使用復(fù)雜推理的現(xiàn)象。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)代大型推理模型(LRMs)經(jīng)常陷入這種過(guò)度思考的陷阱。他們對(duì)比了DeepSeek-R1-Distill-Qwen系列模型與普通的Qwen2.5-Instruct系列模型的表現(xiàn),結(jié)果顯示在四個(gè)測(cè)試數(shù)據(jù)集上,兩類模型有相當(dāng)大比例的問(wèn)題都能正確回答(從34.98%到90.10%不等),但令人驚訝的是,推理模型平均生成的文本量是普通模型的9.78倍!
想象一下,如果你雇傭了兩位助手完成同樣的工作,一位只需10分鐘,另一位卻要花98分鐘,而最終結(jié)果相同。很明顯,這種效率差異在實(shí)際應(yīng)用中是不可接受的,尤其是在考慮計(jì)算資源消耗、響應(yīng)時(shí)間和經(jīng)濟(jì)成本的情況下。
這種現(xiàn)象引發(fā)了研究團(tuán)隊(duì)的思考:難道所有問(wèn)題都需要復(fù)雜的推理過(guò)程嗎?人類在面對(duì)不同復(fù)雜度的問(wèn)題時(shí),會(huì)自然地切換思維模式——簡(jiǎn)單問(wèn)題快速直覺(jué)回答,復(fù)雜問(wèn)題才會(huì)展開(kāi)分析思考。那么,能否讓AI也具備這種靈活性呢?
解讀AI的思考模式:冗余與必要
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)首先需要理解AI"思考"的本質(zhì)。他們?cè)敿?xì)分析了大型推理模型的推理軌跡,發(fā)現(xiàn)了兩種典型的思考模式。
第一種是"冗余推理",就像一個(gè)過(guò)度焦慮的學(xué)生,即使已經(jīng)解出答案,還是反復(fù)檢查、嘗試其他解法、考慮各種可能性。具體來(lái)說(shuō),冗余推理主要表現(xiàn)為三種形式:
首先是"多解探索"。想象一個(gè)學(xué)生解決了一道數(shù)學(xué)題后,不滿足于已有的正確解法,非要嘗試另外兩三種方法來(lái)驗(yàn)證。例如,在一個(gè)關(guān)于蘋果數(shù)量的問(wèn)題中,模型先正確計(jì)算出"瑪莎有68個(gè)蘋果,蒂姆比她少30個(gè),所以有38個(gè),哈里有蒂姆的一半,即19個(gè)",但隨后卻繼續(xù)說(shuō)"讓我們用另一種方法嘗試"、"或者,我們可以用圖表來(lái)可視化"等等,這些額外的探索并不增加答案的準(zhǔn)確性,只是浪費(fèi)計(jì)算資源。
其次是"重復(fù)自我驗(yàn)證"。這就像一個(gè)反復(fù)檢查自己鎖門的人,雖然已經(jīng)確認(rèn)門鎖好了,卻還是要再三確認(rèn)。例如,在解決一個(gè)關(guān)于閱讀速度的問(wèn)題后,模型會(huì)說(shuō)"我想我已經(jīng)驗(yàn)證了足夠多次。所以,答案是5小時(shí)。但為了避免混淆速率和時(shí)間概念,讓我再次概括一下...",這種過(guò)度的自我驗(yàn)證是不必要的。
最后是"防御性假設(shè)"。這就像一個(gè)過(guò)度謹(jǐn)慎的人,總是假設(shè)最壞的情況。例如,在一個(gè)關(guān)于茶葉用量的問(wèn)題中,模型會(huì)說(shuō)"或者,也許她是在問(wèn)需要添加多少茶葉,而不是總共需要多少茶?",盡管問(wèn)題已經(jīng)明確表述。
相比之下,"必要推理"則是高效解決問(wèn)題的關(guān)鍵。研究團(tuán)隊(duì)識(shí)別出三種必要的推理原則:
"關(guān)鍵詞識(shí)別"原則關(guān)注問(wèn)題的核心要素。就像一個(gè)優(yōu)秀的閱讀者會(huì)迅速抓住文章的關(guān)鍵信息,模型需要識(shí)別問(wèn)題中的關(guān)鍵詞和核心要素。例如,在"如果5少于20個(gè)啼叫聲每分鐘從谷倉(cāng)傳出,這噪音來(lái)自多少只谷倉(cāng)貓頭鷹?"這個(gè)問(wèn)題中,模型需要正確理解"5少于20"和"一只谷倉(cāng)貓頭鷹每分鐘發(fā)出5次啼叫"這兩個(gè)關(guān)鍵信息。
"誤解預(yù)防"原則確保對(duì)問(wèn)題的準(zhǔn)確理解。這就像在聽(tīng)指令時(shí)確保自己不會(huì)誤解對(duì)方的意思。例如,當(dāng)問(wèn)題要求計(jì)算"溫度下降了多少"時(shí),模型需要明確這是在問(wèn)溫度變化量,而不是最終溫度。
"前提遺漏避免"原則確??紤]問(wèn)題的所有條件。就像做菜時(shí)不能遺漏任何關(guān)鍵食材,解決問(wèn)題時(shí)也不能遺漏任何前提條件。例如,在一個(gè)關(guān)于洗衣機(jī)限重的問(wèn)題中,模型需要記住每種衣物的重量和洗滌的所有物品。
理解了這些思考模式后,研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問(wèn)題:能否訓(xùn)練AI自動(dòng)識(shí)別何時(shí)需要深度思考,何時(shí)可以直接給出答案?
OThink-R1:教會(huì)AI靈活思考
基于對(duì)AI思考模式的理解,研究團(tuán)隊(duì)開(kāi)發(fā)了OThink-R1系統(tǒng),旨在讓AI像人類一樣靈活切換思考模式。這個(gè)系統(tǒng)的工作原理可以比作教會(huì)一個(gè)學(xué)生何時(shí)需要展示完整的解題過(guò)程,何時(shí)可以直接給出答案。
整個(gè)系統(tǒng)分為兩個(gè)關(guān)鍵步驟:首先是構(gòu)建訓(xùn)練數(shù)據(jù)集,然后是訓(xùn)練模型進(jìn)行動(dòng)態(tài)模式切換。
在第一步中,研究團(tuán)隊(duì)使用了一個(gè)巧妙的方法來(lái)判斷哪些推理是冗余的,哪些是必要的。他們首先收集了大型推理模型的回答,然后使用另一個(gè)語(yǔ)言模型(稱為"LLM評(píng)判員",由GPT-4o實(shí)現(xiàn))來(lái)評(píng)估這些回答。評(píng)判標(biāo)準(zhǔn)基于前面提到的冗余推理和必要推理特征。
簡(jiǎn)單來(lái)說(shuō),如果一個(gè)問(wèn)題同時(shí)滿足兩個(gè)條件:1)普通語(yǔ)言模型能夠正確回答;2)大型推理模型的推理被判斷為冗余,那么這個(gè)問(wèn)題就被標(biāo)記為"可以使用快速思維"。研究團(tuán)隊(duì)將這些問(wèn)題的推理部分(位于標(biāo)簽內(nèi)的內(nèi)容)刪除,只保留最終答案,用于訓(xùn)練模型的快速思維模式。
對(duì)于其他問(wèn)題,特別是那些普通語(yǔ)言模型無(wú)法正確回答的問(wèn)題,研究團(tuán)隊(duì)保留完整的推理過(guò)程,用于訓(xùn)練模型的慢速思維模式。
在第二步中,研究團(tuán)隊(duì)提出了一種新穎的訓(xùn)練方法,使用"雙參考KL散度損失函數(shù)"來(lái)訓(xùn)練模型。這個(gè)函數(shù)有點(diǎn)像同時(shí)請(qǐng)兩位老師指導(dǎo)學(xué)生:一位專注于教授深度思考技巧,另一位專注于教授快速直覺(jué)反應(yīng)。通過(guò)這種方式,模型學(xué)會(huì)了在不同場(chǎng)景下靈活切換思考模式。
具體來(lái)說(shuō),這個(gè)損失函數(shù)由三部分組成:一部分是標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)目標(biāo)(讓模型學(xué)會(huì)正確回答問(wèn)題),另外兩部分是KL散度約束,分別引導(dǎo)模型學(xué)習(xí)大型推理模型的慢速思維輸出分布和普通語(yǔ)言模型的快速思維輸出分布。通過(guò)調(diào)整超參數(shù)β1和β2,研究團(tuán)隊(duì)可以控制模型對(duì)兩種思維模式的偏好程度。
這種訓(xùn)練方法的獨(dú)特之處在于,它不是簡(jiǎn)單地讓模型統(tǒng)一采用某種壓縮的推理模式,而是賦予模型根據(jù)問(wèn)題復(fù)雜度動(dòng)態(tài)調(diào)整思考深度的能力。就像一個(gè)聰明的學(xué)生,簡(jiǎn)單的加減法題直接寫答案,復(fù)雜的微積分題才展示詳細(xì)步驟。
實(shí)驗(yàn)結(jié)果:靈活思考的效果如何?
那么,這種靈活思考的方法效果如何呢?研究團(tuán)隊(duì)在四個(gè)代表性數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):OpenBookQA和CommonsenseQA用于測(cè)試問(wèn)答能力,ASDIV和GSM8K用于測(cè)試數(shù)學(xué)推理能力。
實(shí)驗(yàn)結(jié)果令人振奮。在所有測(cè)試數(shù)據(jù)集上,OThink-R1在保持或提高準(zhǔn)確率的同時(shí),平均減少了23.4%的生成文本量。具體來(lái)看:
在OpenBookQA數(shù)據(jù)集上,OThink-R1-14B模型的準(zhǔn)確率達(dá)到93.4%,比基線模型的92.8%還高,同時(shí)生成的文本量減少了19.3%。
在CommonsenseQA數(shù)據(jù)集上,OThink-R1-14B模型的準(zhǔn)確率從81.7%微增至81.8%,同時(shí)生成的文本量減少了23.6%。
在ASDIV數(shù)據(jù)集上,OThink-R1-7B模型的準(zhǔn)確率從97.0%提高到98.0%,同時(shí)生成的文本量減少了23.3%。
在GSM8K數(shù)據(jù)集上,OThink-R1-7B模型的準(zhǔn)確率從86.1%提高到86.7%,同時(shí)生成的文本量減少了32.1%。
這些結(jié)果清楚地表明,OThink-R1成功實(shí)現(xiàn)了效率與準(zhǔn)確性的雙贏。研究團(tuán)隊(duì)進(jìn)一步分析發(fā)現(xiàn),模型在平均27.3%的測(cè)試問(wèn)題上采用了快速思維模式,這也驗(yàn)證了模型確實(shí)學(xué)會(huì)了根據(jù)問(wèn)題復(fù)雜度動(dòng)態(tài)切換思考模式。
對(duì)比其他方法,如NoThinking(完全跳過(guò)推理過(guò)程)和DualFormer(隨機(jī)刪除中間推理步驟),OThink-R1表現(xiàn)出明顯優(yōu)勢(shì)。NoThinking雖然生成的文本量最少,但準(zhǔn)確率大幅下降;DualFormer雖然在某些情況下減少了文本量,但效果不穩(wěn)定,有時(shí)甚至增加了文本量。只有OThink-R1實(shí)現(xiàn)了穩(wěn)定的效率提升,同時(shí)保持或提高了準(zhǔn)確率。
為了驗(yàn)證系統(tǒng)各組件的必要性,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)。結(jié)果表明,移除LLM評(píng)判員(盲目刪除推理軌跡)或雙參考KL散度約束都會(huì)導(dǎo)致性能下降,證明這些組件對(duì)于系統(tǒng)的成功至關(guān)重要。
案例分析:從混亂思考到清晰回答
為了更直觀地理解OThink-R1的工作原理,讓我們看一個(gè)具體例子。在CommonsenseQA數(shù)據(jù)集中,有一個(gè)問(wèn)題是:"如果有人在做早餐,他們可能會(huì)把兩片面包放在哪里?(A)塑料袋;(B)食品柜;(C)超市;(D)烤面包機(jī);(E)監(jiān)獄"
原始的DeepSeek-R1-Distill-Qwen-7B模型給出了長(zhǎng)達(dá)675個(gè)標(biāo)記的回答,其中包含詳細(xì)的推理過(guò)程:首先考慮選項(xiàng)B(食品柜),認(rèn)為這是存放早餐食品的常見(jiàn)地方;然后考慮選項(xiàng)D(烤面包機(jī)),但糾結(jié)于問(wèn)題是問(wèn)"他們把面包放在哪里"而不是"他們用什么來(lái)使用面包",最終選擇了B(食品柜)作為答案。
而OThink-R1-7B模型則直接給出了簡(jiǎn)潔的57個(gè)標(biāo)記的回答:"正確答案是:(D)烤面包機(jī)。解釋:當(dāng)有人在做早餐時(shí),他們通常會(huì)用烤面包機(jī)烤面包。烤面包機(jī)是提供烤面包所需熱量的設(shè)備,使其成為給定選項(xiàng)中最合適的選擇。"
這個(gè)例子完美展示了OThink-R1如何避免過(guò)度思考。原始模型花費(fèi)大量文本進(jìn)行復(fù)雜推理,卻得出了錯(cuò)誤答案;而OThink-R1識(shí)別出這是一個(gè)可以直接回答的簡(jiǎn)單問(wèn)題,采用快速思維模式,不僅節(jié)省了計(jì)算資源,還給出了正確答案。
未來(lái)展望與局限性
盡管OThink-R1在減少冗余推理方面取得了令人印象深刻的成果,研究團(tuán)隊(duì)也坦誠(chéng)承認(rèn)它的局限性。最明顯的一點(diǎn)是,當(dāng)前系統(tǒng)依賴外部LLM評(píng)判員(GPT-4o)來(lái)判斷推理是否冗余,這增加了系統(tǒng)的復(fù)雜性和依賴性。未來(lái)的研究方向之一是開(kāi)發(fā)端到端的方法,讓模型自主判斷何時(shí)需要深度推理,何時(shí)可以直接回答。
另一個(gè)有待探索的方向是將這種思維模式切換能力擴(kuò)展到多模態(tài)推理和更廣泛的模型架構(gòu)中。隨著AI技術(shù)的發(fā)展,我們可以期待看到更加靈活、高效的推理系統(tǒng)。
總的來(lái)說(shuō),OThink-R1代表了AI思維方式的一個(gè)重要進(jìn)步。它不僅提高了模型的效率,減少了資源消耗,還讓AI的思考過(guò)程更接近人類的自然思維方式。這種靈活切換快慢思維模式的能力,對(duì)于構(gòu)建更智能、更實(shí)用的AI系統(tǒng)具有深遠(yuǎn)意義。
在人工智能日益融入我們?nèi)粘I畹慕裉欤馩Think-R1這樣能夠"知道何時(shí)該思考,何時(shí)該直接行動(dòng)"的系統(tǒng),將幫助AI更好地適應(yīng)各種場(chǎng)景和任務(wù),成為更加高效、自然的助手。正如研究團(tuán)隊(duì)所言,這只是向適應(yīng)性AI推理邁出的第一步,未來(lái)還有更多可能性等待探索。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。