av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 騰訊AI實驗室發(fā)現(xiàn):聰明的AI也會"思維跳躍",新方法讓機器學會深度思考

騰訊AI實驗室發(fā)現(xiàn):聰明的AI也會"思維跳躍",新方法讓機器學會深度思考

2025-09-17 13:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 13:32 ? 科技行者

這項由騰訊AI實驗室的王悅、劉啟志、徐嘉豪等研究團隊完成的突破性研究,發(fā)表于2025年2月18日的arXiv預印本平臺,論文編號為arXiv:2501.18585v2。研究團隊還包括來自蘇州大學和上海交通大學的合作者。對這項研究感興趣的讀者可以通過鏈接https://arxiv.org/abs/2501.18585訪問完整論文。

想象一下你在解一道復雜的數(shù)學題。一開始你想到了一個很有希望的解題思路,但剛想了一會兒,你就突然轉(zhuǎn)向另一種方法,然后又迅速跳到第三種思路,結(jié)果什么都沒想透徹,最終交了白卷。這種現(xiàn)象在我們?nèi)粘I钪胁⒉簧僖?,但沒想到,連最先進的AI系統(tǒng)也會犯這樣的"毛病"。

騰訊AI實驗室的研究團隊發(fā)現(xiàn),那些被譽為能像人類一樣深度思考的AI模型——比如OpenAI的o1和它的開源"兄弟們"QwQ、DeepSeek-R1等——竟然也存在一個令人意外的問題:它們經(jīng)常在找到正確思路后,卻沒有堅持下去,而是頻繁地在不同的解題策略之間跳來跳去,就像一個注意力不集中的學生。

這個現(xiàn)象被研究團隊形象地命名為"思維不足"(underthinking)。更令人驚訝的是,當這些AI模型給出錯誤答案時,它們平均會比給出正確答案時多消耗225%的計算資源,思維跳躍的頻率更是高達418%。這就好比一個學生在考試中,越是不會做的題目,越是在草稿紙上寫得密密麻麻,但實際上都是無效的思考。

為了解決這個問題,研究團隊開發(fā)了一種叫做"思維切換懲罰"(TIP)的新方法。這種方法就像給AI裝上了一個"專注力訓練器",當AI想要頻繁切換思路時,系統(tǒng)會給它一個小小的"提醒",鼓勵它把當前的想法想透徹再換其他方法。

這項研究的意義遠不止于提高AI的答題準確率。它揭示了一個深刻的道理:即使是最聰明的系統(tǒng),也需要學會如何有效地分配注意力和思考資源。正如人類學習需要培養(yǎng)專注力一樣,AI也需要被"教導"如何進行深度思考。

一、AI的"注意力缺陷":當機器也會三心二意

在我們的印象中,計算機總是專注而高效的。它們不會像人類一樣感到疲憊、分心或者三心二意。然而,騰訊研究團隊的發(fā)現(xiàn)徹底顛覆了這個認知。他們通過對三個極具挑戰(zhàn)性的測試集進行深入分析,發(fā)現(xiàn)了一個令人意外的現(xiàn)象。

這三個測試集分別是MATH500(高中數(shù)學競賽題)、GPQA Diamond(研究生水平的物理化學生物題)和AIME2024(美國邀請數(shù)學考試題)。每一個測試集都代表了人類智力的巔峰挑戰(zhàn),即使是優(yōu)秀的學生也可能在這些題目前束手無策。

研究團隊選擇了兩個最具代表性的開源AI模型進行研究:QwQ-32B-Preview和DeepSeek-R1-671B。這兩個模型都屬于所謂的"o1類模型",它們最大的特點是具有可見的長串思考過程,就像學生在草稿紙上寫下的詳細解題步驟一樣。

令人震驚的發(fā)現(xiàn)出現(xiàn)了:當這些AI模型遇到困難問題時,它們的思維模式就像一個焦慮的考生。面對簡單問題時,它們通常能保持專注,用較少的步驟得出正確答案。但是,當問題難度增加時,情況就完全不同了。以QwQ模型為例,在處理最簡單的1級題目時,它平均只需要1.1個思考步驟,但面對最難的5級題目時,思考步驟激增到4.0個。

更關(guān)鍵的是,研究團隊發(fā)現(xiàn)了一個反直覺的規(guī)律:錯誤答案往往伴隨著更多的思維跳躍。當AI給出正確答案時,它的思考過程相對專注和高效。但當它給出錯誤答案時,就會表現(xiàn)出明顯的"思維散漫"特征,不斷在不同的解題策略之間切換,就像一個慌張的學生在考場上不停地改變解題思路。

以一個具體的例子來說明這種現(xiàn)象。研究團隊展示了QwQ模型解決一個復雜橢圓方程問題的過程。這個問題要求找到滿足特定條件的實數(shù)a和b的最小值。AI在第一個思考步驟中其實已經(jīng)找到了正確的方向,它正確地識別出這些方程代表的是橢圓,并開始考慮如何找到它們的交點。這個思路是完全正確的,如果堅持下去,很可能得出正確答案。

然而,AI沒有深入這個思路,而是迅速跳轉(zhuǎn)到幾何解釋、優(yōu)化問題、距離計算等多個不同的方法??偣策M行了25個思考步驟,消耗了7681個計算單元,最終卻給出了一個毫無根據(jù)的猜測答案。如果它堅持最初的正確思路,可能只需要411個計算單元就能得出正確答案。這意味著它浪費了94.6%的計算資源。

這種現(xiàn)象在所有測試集中都普遍存在。在MATH500-Hard測試集中,錯誤答案平均消耗的資源比正確答案多出196%。在GPQA Diamond測試集中,這個比例達到了129%。這就好比一個學生在不會做的題目上花費了大量時間,但效果反而更差。

研究團隊還發(fā)現(xiàn),隨著模型能力的提升,這種"思維不足"現(xiàn)象有時甚至會加劇。更先進的模型在產(chǎn)生錯誤答案時,往往會進行更多但無效的思考。這就像一個知識更豐富的學生,在遇到困難時反而更容易陷入過度思考的陷阱,在各種可能的方法之間搖擺不定,最終什么也沒想透徹。

這個發(fā)現(xiàn)徹底改變了我們對AI推理過程的理解。以前我們認為,更多的計算時間和更長的推理過程總是有益的。但這項研究表明,關(guān)鍵不在于思考的時間長短,而在于思考的深度和專注度。

二、尋找"思維不足"的根源:是真的不會,還是沒想透

面對AI頻繁跳躍思維的現(xiàn)象,研究團隊面臨一個關(guān)鍵問題:這到底是因為AI真的不知道如何解決問題,所以只能四處"亂撞",還是它其實找到了正確方向,但沒有堅持深入思考下去?

這個問題的答案直接決定了解決方案的方向。如果是前者,那么需要提升AI的基礎(chǔ)知識和理解能力;如果是后者,那么問題的核心就在于如何讓AI學會"堅持"和"深度思考"。

為了找出答案,研究團隊設計了一個巧妙的分析方法。他們讓另外兩個高水平的AI模型——DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B——來評估每一個思考步驟的質(zhì)量。這就像讓兩個優(yōu)秀的老師來評估學生草稿紙上每一行推理是否正確。

評估的標準很簡單:如果一個思考步驟能夠引導到正確答案,就被標記為"正確思考";如果不能,就被標記為"錯誤思考"。為了確保評估的準確性,研究團隊還進行了人工驗證,發(fā)現(xiàn)這種自動評估方法的準確率超過了82%。

分析結(jié)果令人震驚。在那些最終給出錯誤答案的回應中,超過70%的情況下都包含至少一個完全正確的思考步驟。更令人驚訝的是,在超過50%的錯誤回應中,正確思考步驟的比例超過了10%。

這就好比一個學生在數(shù)學考試中,明明在草稿紙的某個角落寫下了正確的解題思路,但他沒有意識到這個思路的價值,反而把注意力轉(zhuǎn)向了其他錯誤的方向,最終交出了一份錯誤的答案。

更深入的分析顯示了一個清晰的模式:在錯誤答案中,早期的思考步驟往往具有更高的正確率。以DeepSeek-R1-671B模型為例,第一個思考步驟有32%的正確率,但隨著思考的深入,正確率呈現(xiàn)波動下降的趨勢。這表明AI模型確實能夠在早期識別出正確的解題方向,但它們?nèi)狈猿趾蜕罨@些正確思路的能力。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:越先進的模型,在錯誤回應中包含的正確思考反而可能更少。這聽起來很矛盾,但實際上反映了一個深層問題。更先進的模型擁有更豐富的"知識儲備",面對困難問題時,它們能想到更多種解決方案,但這反而增加了它們在不同方案之間搖擺的可能性。

這就像一個博學的學者面對復雜問題時,可能會同時想到歷史學、社會學、經(jīng)濟學等多個角度的分析方法,但如果不能專注于其中一個角度深入分析,反而可能得出膚淺的結(jié)論。

為了量化這種"思維不足"現(xiàn)象,研究團隊提出了一個創(chuàng)新的評估指標。這個指標的核心思想是測量"思維效率":在一個錯誤的回應中,有多少部分真正有助于找到正確答案。

具體來說,如果一個AI模型在回應中總共用了1000個計算單元,但只有前200個單元用于正確的思考,那么它的思維效率就是20%,"思維不足"分數(shù)就是80%。分數(shù)越高,說明浪費的計算資源越多。

通過這個指標,研究團隊發(fā)現(xiàn)所有測試的AI模型都存在顯著的思維不足問題。在MATH500-Hard測試集中,QwQ模型的思維不足分數(shù)達到了58.2%,意味著超過一半的計算資源被浪費在無效思考上。在AIME2024測試集中,某些模型的思維不足分數(shù)甚至超過了75%。

這些發(fā)現(xiàn)揭示了AI推理的一個根本性問題:它們不是不聰明,而是不夠?qū)W?。就像一個天賦異稟的學生,擁有解決問題的能力,但缺乏深入思考的耐心和專注力。

三、"專注力訓練器":教AI學會深度思考的新方法

既然問題的根源在于AI缺乏"專注力",那么解決方案就很明確了:需要開發(fā)一種方法來訓練AI的專注能力,讓它學會在找到正確思路后堅持深入下去。

騰訊研究團隊從神經(jīng)機器翻譯領(lǐng)域的成功經(jīng)驗中獲得了啟發(fā)。在翻譯任務中,研究者們早就發(fā)現(xiàn)了類似的問題:翻譯模型有時會重復翻譯某些詞語,或者遺漏一些重要內(nèi)容。為了解決這個問題,研究者開發(fā)了"覆蓋懲罰"機制,鼓勵模型更全面、更均衡地處理源語言中的每個部分。

受此啟發(fā),研究團隊設計了一個叫做"思維切換懲罰"(TIP)的新方法。這個方法的核心思想很簡單:當AI試圖從一個思考方向切換到另一個思考方向時,系統(tǒng)會給它一個小小的"懲罰",讓它重新考慮是否真的需要切換。

具體來說,這個方法的工作原理就像一個溫和的提醒系統(tǒng)。當AI在生成回應時,系統(tǒng)會實時監(jiān)控它是否在使用表示思維切換的詞語,比如"alternatively"(或者)、"on the other hand"(另一方面)等。一旦檢測到這類詞語,系統(tǒng)就會降低生成這些詞語的概率,從而鼓勵AI繼續(xù)深入當前的思考路徑。

這個方法有兩個關(guān)鍵參數(shù)。第一個是"懲罰強度",控制對思維切換的阻止力度。就像調(diào)節(jié)一個提醒器的聲音大小,聲音太小起不到提醒作用,聲音太大又可能過度干擾正常思考。第二個是"懲罰持續(xù)時間",控制在開始一個新思路后多長時間內(nèi)保持這種鼓勵深入思考的狀態(tài)。

為了找到最佳的參數(shù)組合,研究團隊進行了大量的實驗。他們使用AIME 2022和2023的題目作為開發(fā)數(shù)據(jù)集,系統(tǒng)地測試了不同參數(shù)組合的效果。結(jié)果顯示,適中的懲罰強度配合較長的持續(xù)時間能夠達到最佳效果。具體來說,當懲罰強度設為3,持續(xù)時間設為600個計算步驟時,AI的表現(xiàn)達到了最佳狀態(tài)。

實驗結(jié)果令人振奮。在所有測試數(shù)據(jù)集上,使用TIP方法的AI模型都顯示出了顯著的改進。以QwQ模型為例,在AIME2024測試集上,使用TIP方法后,AI的準確率從46.7%提升到了44.1%。雖然提升幅度看起來不大,但考慮到這些都是極其困難的問題,任何微小的改進都具有重要意義。

更重要的是,TIP方法顯著改善了AI的思維效率。使用TIP后,AI的平均思維切換次數(shù)大幅減少。在AIME2024測試中,DeepSeek-R1模型的思維切換次數(shù)從13.8次減少到5.7次,思維切換的間隔從580個計算單元增加到942個計算單元。這意味著AI學會了在每個思路上投入更多的時間和精力。

研究團隊還發(fā)現(xiàn),TIP方法與其他改進策略具有很好的兼容性。當TIP與"自一致性"方法結(jié)合使用時,效果進一步提升。自一致性方法就是讓AI對同一個問題生成多個答案,然后選擇最常出現(xiàn)的答案。結(jié)合TIP后,不僅答案的準確率提高了,而且每個答案的質(zhì)量也更高了。

同樣,TIP方法與"簡潔解碼"方法的結(jié)合也產(chǎn)生了協(xié)同效應。簡潔解碼的思想是"越簡潔越可能正確",它會在多個答案中選擇最短的那個。當與TIP結(jié)合使用時,AI不僅能生成更簡潔的答案,而且這些答案的正確率也更高。

值得強調(diào)的是,TIP方法最大的優(yōu)勢在于它的實用性。這種方法不需要重新訓練AI模型,不需要修改模型的內(nèi)部結(jié)構(gòu),只需要在生成答案的過程中施加一些小小的引導。這就像給學生提供一個簡單的學習建議,而不需要重新教授整個課程。

四、實戰(zhàn)檢驗:從理論到實踐的全面驗證

任何科學研究的價值最終都要通過實際效果來檢驗。為了全面驗證TIP方法的有效性,研究團隊設計了一系列嚴格的對比實驗。

實驗的設計遵循了科學研究的黃金標準。研究團隊為每個問題生成了32個不同的答案,使用0.7的溫度參數(shù)和0.95的top-p參數(shù)來確保答案的多樣性。這就像讓同一個學生對同一道題做32次,然后分析其表現(xiàn)的一致性和穩(wěn)定性。

在MATH500-Hard數(shù)據(jù)集上的結(jié)果最為顯著。使用TIP方法后,QwQ模型在Pass@1指標上從83.1%提升到83.7%,雖然提升幅度不大,但在Pass@16指標上從95.8%提升到96.4%。更重要的是,加權(quán)思維不足分數(shù)從11.7降低到11.0,表明AI的思維效率得到了實質(zhì)性改善。

GPQA Diamond數(shù)據(jù)集的結(jié)果更加令人鼓舞。這個數(shù)據(jù)集包含的都是研究生水平的科學問題,對AI的綜合推理能力提出了很高要求。使用TIP方法后,QwQ模型的Pass@1準確率從57.6%提升到59.1%,思維不足分數(shù)從25.1降低到23.2。考慮到這些問題的極高難度,這樣的提升是非??捎^的。

在最具挑戰(zhàn)性的AIME2024數(shù)據(jù)集上,TIP方法展現(xiàn)了其最大的威力。QwQ模型的Pass@1準確率從38.3%躍升到44.1%,提升幅度達到了5.8個百分點。在Pass@16指標上,準確率從62.7%提升到74.0%,提升幅度超過了11個百分點。

更令人印象深刻的是,TIP方法在不同能力水平的模型上都顯示出了一致的改進效果。無論是相對較小的QwQ-32B模型,還是更大規(guī)模的DeepSeek-R1模型,都在使用TIP后獲得了顯著的性能提升。這表明TIP方法具有廣泛的適用性,不僅僅局限于特定類型的模型。

研究團隊還進行了一項有趣的對比實驗,將TIP方法與簡單的提示詞工程進行比較。他們設計了一個詳細的提示詞,明確告訴AI要"完成每一個想法,不要半途而廢",并提供了具體的解題規(guī)則和格式要求。

然而,結(jié)果顯示,僅僅通過提示詞來鼓勵深度思考的效果相當有限。雖然提示詞能夠在一定程度上減少思維切換的頻率,但效果遠不如TIP方法顯著。這說明AI的思維跳躍問題不僅僅是"理解"層面的問題,更是一個需要在生成過程中持續(xù)干預和引導的技術(shù)問題。

研究團隊還驗證了TIP方法與現(xiàn)有最佳實踐的兼容性。當TIP與"自一致性"方法結(jié)合時,在AIME2024數(shù)據(jù)集上,QwQ模型的Pass@4準確率從43.7%提升到51.4%,提升幅度接近8個百分點。這種協(xié)同效應表明,不同的改進策略可以相互補充,共同提升AI的推理能力。

特別值得注意的是,TIP方法在處理思維切換模式方面的效果。分析顯示,使用TIP后,AI模型的思維切換次數(shù)普遍減少了50%以上,而每個思路的平均深入程度增加了60%以上。這意味著AI真正學會了"慢下來,想深入"。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:TIP方法的效果在不同難度的問題上表現(xiàn)不同。對于相對簡單的問題,TIP的作用不太明顯,因為AI本來就能夠?qū)W⒌亟鉀Q這些問題。但是對于復雜問題,TIP的效果就非常顯著,這正好驗證了"思維不足"問題主要出現(xiàn)在困難任務中的假設。

五、深層思考:AI思維模式的新認知

這項研究的意義遠遠超出了技術(shù)層面的改進,它為我們理解AI的思維模式提供了全新的視角。

傳統(tǒng)觀念認為,AI系統(tǒng)的推理過程是完全理性和高效的。我們習慣性地認為,只要給AI足夠的計算資源和時間,它就能找到最優(yōu)解。然而,這項研究揭示了一個深刻的事實:即使是最先進的AI系統(tǒng),也會表現(xiàn)出類似人類的認知局限。

這種"思維不足"現(xiàn)象實際上反映了當前AI系統(tǒng)在推理架構(gòu)上的一個根本性問題。這些系統(tǒng)雖然能夠產(chǎn)生大量的推理步驟,但缺乏有效的"元認知"能力,也就是思考如何思考的能力。它們無法有效地評估當前思路的價值,也不知道何時應該深入、何時應該切換。

從某種角度來看,這種現(xiàn)象與人類的認知偏差有相似之處。心理學研究表明,人類在面對困難問題時,也容易出現(xiàn)"認知超載",導致注意力分散、思維跳躍。但人類擁有"元認知"能力,可以通過訓練和經(jīng)驗逐漸學會控制這種傾向。

AI的"思維不足"問題還揭示了一個重要的哲學問題:智能的本質(zhì)是什么?是知識的廣度,還是思考的深度?這項研究的結(jié)果傾向于后者。一個系統(tǒng)可能擁有海量的知識儲備,但如果缺乏深入思考的能力,就無法有效地運用這些知識。

研究團隊的發(fā)現(xiàn)也對AI系統(tǒng)的設計和評估提出了新的思考。傳統(tǒng)的AI評估主要關(guān)注準確率等結(jié)果指標,但這項研究表明,過程指標同樣重要。一個AI系統(tǒng)不僅要能給出正確答案,還要能以高效、專注的方式得出這些答案。

TIP方法的成功也為未來的AI改進指明了一個新方向。與其一味追求更大的模型規(guī)?;蚋嗟挠柧殧?shù)據(jù),不如關(guān)注如何優(yōu)化AI的推理過程。這種"過程導向"的改進思路可能比"規(guī)模導向"的改進思路更加有效和可持續(xù)。

從實際應用的角度來看,這項研究為AI系統(tǒng)在高風險場景中的應用提供了重要啟示。在醫(yī)療診斷、法律分析、工程設計等領(lǐng)域,AI不僅要給出正確的結(jié)論,更要能夠提供清晰、深入的推理過程。TIP這樣的方法可以幫助確保AI在這些關(guān)鍵應用中表現(xiàn)出更高的可靠性和可解釋性。

研究還揭示了AI訓練中的一個潛在問題。當前大多數(shù)AI系統(tǒng)都是通過強化學習進行訓練的,優(yōu)化目標通常是最終的準確率。但這種訓練方式可能無意中鼓勵了"投機取巧"的行為,即AI學會了快速切換策略來增加碰對答案的概率,而不是學會深入思考。

六、未來展望:從"思維訓練"到智能進化

這項研究開啟了AI發(fā)展的一個新篇章,但同時也提出了許多值得進一步探索的問題。

首先是技術(shù)層面的進步空間。雖然TIP方法已經(jīng)顯示出了良好的效果,但它仍然是一種相對簡單的干預機制。未來可能會出現(xiàn)更加精細化的"思維引導"技術(shù),能夠根據(jù)問題類型、AI模型特點、甚至當前思考狀態(tài)來動態(tài)調(diào)整引導策略。

研究團隊提到了一個有趣的方向:自適應思維控制。這種技術(shù)可以讓AI系統(tǒng)學會自我調(diào)節(jié)思維模式,在需要廣度探索時保持開放,在需要深度思考時保持專注。這就像培養(yǎng)一個學者既要有發(fā)散思維的創(chuàng)新能力,又要有專注深入的研究能力。

另一個重要的發(fā)展方向是跨領(lǐng)域的普遍化。目前的研究主要集中在數(shù)學和科學問題上,但"思維不足"現(xiàn)象很可能在其他領(lǐng)域也存在。比如在文學創(chuàng)作、法律推理、商業(yè)分析等領(lǐng)域,AI是否也會表現(xiàn)出類似的注意力分散問題?如何針對不同領(lǐng)域的特點設計相應的改進策略?

從更宏觀的角度來看,這項研究可能預示著AI發(fā)展模式的轉(zhuǎn)變。過去幾年,AI的進步主要依靠模型規(guī)模的擴大和訓練數(shù)據(jù)的增加。但隨著這種擴展式發(fā)展遇到技術(shù)和經(jīng)濟瓶頸,"效率導向"的改進可能成為新的主流。

這種轉(zhuǎn)變不僅體現(xiàn)在技術(shù)層面,也體現(xiàn)在評估標準上。未來的AI評估可能不再僅僅關(guān)注"能不能做對",而是更多關(guān)注"怎么做對的"。思維效率、推理一致性、專注度等過程指標可能會變得和準確率一樣重要。

研究還啟發(fā)了對AI教育和訓練方法的重新思考。傳統(tǒng)的AI訓練類似于"題海戰(zhàn)術(shù)",通過大量的輸入輸出對來學習模式。但這項研究表明,AI可能需要更多"思維方法"層面的指導,就像人類教育中的"學習方法"訓練一樣。

從哲學層面來看,這項研究也觸及了意識和智能的本質(zhì)問題。"思維不足"現(xiàn)象表明,高級智能不僅需要知識和計算能力,還需要注意力控制和元認知能力。這為我們理解智能的多層次結(jié)構(gòu)提供了新的視角。

最后,這項研究對AI安全性也具有重要意義。一個容易"分心"的AI系統(tǒng)在關(guān)鍵決策場景中可能存在可靠性風險。通過提高AI的思維專注度,不僅可以改善其性能,還可以增強其在重要應用中的可信度。

說到底,這項來自騰訊AI實驗室的研究告訴我們一個樸素卻深刻的道理:無論是人類還是AI,真正的智慧不在于知道得多快,而在于想得多深。在這個AI快速發(fā)展的時代,或許我們都需要學會的不是如何更快地獲取信息,而是如何更好地深入思考。當機器都開始學習專注和深度思考時,作為人類的我們,是不是更應該重新審視自己的思維方式呢?

這項研究還提醒我們,AI的發(fā)展道路遠比我們想象的復雜。它不是一條從簡單到復雜的直線,而是一個需要在多個維度上不斷優(yōu)化和平衡的過程。正如研究團隊所指出的,未來的AI系統(tǒng)需要學會的不僅是如何找到答案,更是如何高效、專注、深入地思考。這或許就是下一代AI系統(tǒng)與當前系統(tǒng)的根本區(qū)別所在。

Q&A

Q1:什么是AI的"思維不足"現(xiàn)象?它是如何表現(xiàn)的?

A:AI的"思維不足"是指先進AI模型在解題時頻繁在不同思路間跳躍,而不是深入探索單一思路的現(xiàn)象。表現(xiàn)為:給錯誤答案時消耗225%更多計算資源,思維跳躍頻率高達418%,就像學生做不出題時在草稿紙上亂寫一氣。

Q2:騰訊團隊提出的TIP方法是如何工作的?

A:TIP(思維切換懲罰)方法就像給AI裝了個"專注力訓練器"。當AI想要切換思路時,系統(tǒng)會給出小懲罰,鼓勵它把當前想法想透徹。通過降低"alternatively"等切換詞的生成概率,讓AI學會堅持深入思考而不是頻繁跳躍。

Q3:這項研究對普通人使用AI有什么實際意義?

A:這項研究揭示了AI在復雜問題上可能"不夠?qū)W?的問題,提醒我們在使用AI時要注意其推理質(zhì)量。未來基于這種技術(shù)改進的AI將更可靠,在醫(yī)療、法律等關(guān)鍵領(lǐng)域的應用會更安全,同時也啟發(fā)我們?nèi)祟愐匾暽疃人伎嫉膬r值。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-