av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 新加坡國立大學開創(chuàng)性突破:讓AI不再被"好心幫倒忙"的推理示例困擾

新加坡國立大學開創(chuàng)性突破:讓AI不再被"好心幫倒忙"的推理示例困擾

2025-10-22 10:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-22 10:13 ? 科技行者

這項由新加坡國立大學王浩楠、梁偉達、傅梓航等研究人員與悉尼大學、MiroMind AI聯(lián)合開展的研究,發(fā)表于2025年9月的arXiv預印本平臺(論文編號:arXiv:2509.23196v1),揭示了現(xiàn)代AI推理模型面臨的一個意外困境:那些本應幫助AI更好推理的示例,反而讓它們的表現(xiàn)變得更糟。

當我們談到AI推理時,通常會想到這樣一個場景:就像學生需要看幾道例題才能更好地解答新題目一樣,AI模型也需要一些推理示例來指導它們處理復雜問題。這種被稱為"少樣本思維鏈"的方法,長期以來被認為是提升AI推理能力的黃金標準。然而,這項研究卻發(fā)現(xiàn)了一個令人意外的現(xiàn)象:對于那些經(jīng)過強化學習訓練的現(xiàn)代推理模型來說,這些"好心"的示例反而成了絆腳石。

研究團隊選擇了包括DeepSeek-R1和Qwen系列在內(nèi)的多個先進AI模型進行測試,測試場景包括數(shù)學競賽題目和科學推理問題。結(jié)果令人震驚:即使給這些模型提供了高質(zhì)量、與目標問題高度相關(guān)的推理示例,它們的準確率也會顯著下降,而且提供的示例越多,表現(xiàn)越差。在某些情況下,準確率甚至下降了35%。

這個發(fā)現(xiàn)讓人聯(lián)想到一個有趣的類比:一個已經(jīng)熟練掌握廚藝的大廚,如果在烹飪時總是被人在旁邊指手畫腳地提供"建議",反而可能做出比獨自烹飪更糟糕的菜品?,F(xiàn)代AI推理模型經(jīng)過大量訓練后,已經(jīng)具備了相當強的內(nèi)在推理能力,外部示例有時會干擾它們的正常思維流程。

為了深入了解這種現(xiàn)象的根本原因,研究團隊進行了細致的分析,發(fā)現(xiàn)了兩個關(guān)鍵的失效機制。第一個問題可以稱為"表面相似性陷阱":當AI看到示例問題與目標問題在用詞或表述上很相似時,它會誤以為這兩個問題完全相同,然后直接照搬示例的解題步驟和答案,完全忽略了目標問題的獨特邏輯結(jié)構(gòu)。這就像一個學生看到題目中都提到"蘋果和橘子",就認為所有這類題目的解法都一樣,結(jié)果把計算重量的方法用到了計算價格的問題上。

第二個問題則是"策略提取失敗":即使示例中包含了有用的解題策略,AI也難以正確地提取并應用到新問題上。研究團隊觀察到,AI經(jīng)常會錯誤地簡化或誤解示例中的推理模式,就像一個人學習別人的寫作技巧時,只記住了表面的詞匯搭配,卻沒有理解深層的邏輯結(jié)構(gòu)。

基于這些發(fā)現(xiàn),研究團隊開發(fā)了一套名為"洞察到解答"(Insight-to-Solve, I2S)的新方法。這種方法的核心思想是將推理示例轉(zhuǎn)化為抽象的、可復用的指導原則,而不是讓AI直接模仿具體的解題過程。

I2S方法的工作流程就像一個優(yōu)秀的導師指導學生學習。首先,它會讓AI仔細比較示例問題和目標問題,明確指出兩者的相似點和不同點,避免混淆。接著,AI需要從示例的詳細解題過程中提取出通用的策略和方法,比如"先分析數(shù)據(jù)結(jié)構(gòu)"或"檢查邊界條件"這樣的抽象指導。最后,AI運用這些抽象指導來構(gòu)建針對目標問題的全新推理過程,而不是照搬示例的具體步驟。

更進一步的I2S+版本還加入了自我完善機制。就像一個作家會反復修改自己的文章一樣,AI在生成初步答案后,會對自己的推理過程進行多輪檢查和改進。它會主動尋找可能的錯誤,檢查邏輯是否連貫,并對有問題的部分進行修正。這個過程通常經(jīng)過2-3輪迭代就能達到最佳效果。

實驗結(jié)果顯示,這種新方法取得了顯著的效果改進。在數(shù)學競賽AIME 2025的測試中,使用I2S+方法的7B參數(shù)模型準確率從42%提升到了51.33%,提升幅度超過9個百分點。更令人印象深刻的是,這種方法不僅對開源模型有效,對GPT-4.1和o1-mini這樣的閉源商業(yè)模型同樣有效。GPT-4.1在AIME測試中的表現(xiàn)從34%提升到48%,提升了14個百分點。

研究團隊還發(fā)現(xiàn),I2S方法在計算效率方面也表現(xiàn)出色。與簡單地生成多個答案然后投票選擇最佳結(jié)果的方法相比,I2S能夠用更少的計算資源獲得更好的結(jié)果。這就像一個高效的學習方法,能讓學生用更少的時間獲得更好的學習效果。

在開放式推理任務中,I2S方法同樣表現(xiàn)良好。研究團隊使用GPT-4.1作為評判標準,發(fā)現(xiàn)I2S在工程和通用推理任務中都能帶來穩(wěn)定的性能提升,提升幅度達到1-2個百分點。雖然這個提升看起來不如數(shù)學題目那么顯著,但考慮到開放式問題評判的復雜性和主觀性,這樣的提升仍然很有價值。

特別值得注意的是迭代改進的效果模式。研究發(fā)現(xiàn),對于數(shù)學類問題,多輪自我改進通常能帶來明顯的效果提升,而且模型規(guī)模越大,從迭代中獲得的收益越明顯。然而,對于開放式問題,過多的迭代有時反而會產(chǎn)生負面效果,特別是對較小的模型。這揭示了一個重要的實用原則:不同類型的問題需要不同的處理策略。

從技術(shù)實現(xiàn)的角度來看,I2S方法的一個重要優(yōu)勢是它的輕量級特性。整個過程只需要三次模型調(diào)用:比較生成、策略分析和答案構(gòu)建,計算開銷相對較小。而且,這種方法不需要對原有模型進行重新訓練,可以直接應用于現(xiàn)有的各種AI模型,具有很強的實用性。

這項研究的意義遠不止于解決一個技術(shù)問題。它揭示了AI發(fā)展過程中的一個重要現(xiàn)象:隨著AI能力的提升,傳統(tǒng)的訓練和使用方法可能需要相應調(diào)整。那些曾經(jīng)有效的方法可能不再適用于新一代的AI系統(tǒng),我們需要不斷探索更適合先進AI特點的交互方式。

研究還展現(xiàn)了AI推理能力評估的復雜性。表面上看起來應該有幫助的輸入,實際可能會產(chǎn)生負面影響,這提醒我們在設計AI系統(tǒng)時需要更加細致地考慮各種因素的相互作用。同時,這也說明了AI的"智能"與人類智能有著本質(zhì)的不同特點,需要我們用新的視角來理解和優(yōu)化它們的表現(xiàn)。

從更廣泛的應用前景來看,I2S方法的成功為改進AI推理能力開辟了新的思路。它不僅可以應用于學術(shù)研究中的復雜推理任務,也可能對實際應用中的AI助手、教育軟件、科學計算等領(lǐng)域產(chǎn)生積極影響。任何需要AI進行復雜推理的場景,都可能從這種新方法中受益。

值得一提的是,這項研究還展現(xiàn)了跨機構(gòu)合作在AI研究中的重要性。新加坡國立大學、悉尼大學和MiroMind AI的合作,匯集了學術(shù)界和產(chǎn)業(yè)界的不同優(yōu)勢,為解決復雜的AI問題提供了有力支撐。這種合作模式可能是未來AI研究發(fā)展的重要趨勢。

說到底,這項研究告訴我們一個重要道理:在AI快速發(fā)展的今天,我們不能簡單地假設傳統(tǒng)的方法總是最好的。隨著AI能力的提升,我們需要不斷重新審視和改進與AI交互的方式。有時候,退一步海闊天空,讓AI發(fā)揮自己的內(nèi)在能力,可能比試圖過度指導它們更加有效。這項研究為我們提供了一個很好的例子,說明了如何通過深入理解AI的工作機制,開發(fā)出更加有效的使用方法。

Q&A

Q1:什么是洞察到解答(I2S)方法?它是如何工作的?

A:I2S是新加坡國立大學研發(fā)的一種新型AI推理方法。它不讓AI直接模仿示例解題過程,而是先讓AI比較示例與目標問題的異同,然后提取抽象的解題策略,最后用這些策略獨立構(gòu)建新的推理過程。就像優(yōu)秀導師教學生提取解題思路而非照搬具體步驟。

Q2:為什么傳統(tǒng)的推理示例會讓現(xiàn)代AI表現(xiàn)變差?

A:研究發(fā)現(xiàn)兩個主要原因:一是"表面相似性陷阱",AI看到用詞相似就誤認為是同一問題,直接照搬答案;二是"策略提取失敗",AI難以從示例中正確提取有用的推理策略。這就像一個熟練廚師被人指手畫腳反而做不好菜一樣。

Q3:I2S方法在實際測試中效果如何?適用于哪些AI模型?

A:效果顯著且適用面廣。在數(shù)學競賽中,小模型準確率提升9個百分點,GPT-4.1提升14個百分點。方法不需要重新訓練,可直接應用于包括GPT-4.1、o1-mini在內(nèi)的各種開源和閉源模型,計算開銷也相對較小。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-