av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 騰訊AI實(shí)驗(yàn)室首創(chuàng)"平行思維":讓AI像人類一樣同時(shí)思考多個(gè)問(wèn)題的訓(xùn)練新方法

騰訊AI實(shí)驗(yàn)室首創(chuàng)"平行思維":讓AI像人類一樣同時(shí)思考多個(gè)問(wèn)題的訓(xùn)練新方法

2025-09-24 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-24 13:56 ? 科技行者

這項(xiàng)由騰訊AI實(shí)驗(yàn)室西雅圖分部的鄭童等研究人員完成的突破性工作,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2509.07980v1。有興趣深入了解的讀者可以通過(guò)https://github.com/zhengkid/Parallel-R1訪問(wèn)完整論文和開(kāi)源代碼。

當(dāng)你遇到一道復(fù)雜的數(shù)學(xué)題時(shí),你的大腦會(huì)做什么?很可能是這樣的:一邊嘗試用公式法求解,一邊考慮能否用圖形方法理解,同時(shí)還在想有沒(méi)有更簡(jiǎn)單的思路。這種"一心多用"的思考方式,就是我們今天要聊的"平行思維"。

現(xiàn)在,騰訊AI實(shí)驗(yàn)室的研究人員成功教會(huì)了人工智能這種原本屬于人類的思考技巧。不同于以往AI只能按部就班、一步步推理的方式,他們開(kāi)發(fā)的Parallel-R1系統(tǒng)讓AI學(xué)會(huì)了"腳踏兩條船"——同時(shí)探索多個(gè)解題路徑,就像一個(gè)熟練的象棋高手能同時(shí)考慮好幾種走法一樣。

這項(xiàng)研究最令人驚嘆的地方在于,它不僅僅是讓AI模仿人類的思考模式,更是通過(guò)強(qiáng)化學(xué)習(xí)讓AI自主發(fā)現(xiàn)和掌握了這種能力。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)AI掌握平行思維后,在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽等高難度數(shù)學(xué)測(cè)試中的表現(xiàn)提升了42.9%,這個(gè)進(jìn)步幅度相當(dāng)可觀。

更有趣的是,研究人員通過(guò)觀察發(fā)現(xiàn),AI使用平行思維的策略會(huì)隨著訓(xùn)練的深入而發(fā)生變化。剛開(kāi)始學(xué)習(xí)時(shí),AI像個(gè)初學(xué)者,通過(guò)平行思維來(lái)廣泛探索不同的解題方法,就像撒網(wǎng)捕魚(yú)一樣希望能碰到正確答案。但隨著能力的提升,AI變得更加聰明,開(kāi)始把平行思維當(dāng)作驗(yàn)證工具——先用最有把握的方法得出答案,然后啟動(dòng)平行思維從不同角度驗(yàn)證這個(gè)答案是否正確。

一、從模仿到創(chuàng)新:AI學(xué)會(huì)平行思維的奧秘

要理解這項(xiàng)研究的意義,我們先來(lái)看看傳統(tǒng)AI是怎么解決問(wèn)題的。就像一個(gè)按照食譜做菜的新手廚師,傳統(tǒng)AI只能?chē)?yán)格按照步驟一步步來(lái):先做A,再做B,最后做C。這種線性思維雖然穩(wěn)定可靠,但遇到復(fù)雜問(wèn)題時(shí)往往效率不高,容易鉆牛角尖。

人類的思維卻完全不同。當(dāng)面對(duì)一個(gè)難題時(shí),我們的大腦像是開(kāi)了多個(gè)窗口的電腦,可以同時(shí)運(yùn)行幾個(gè)不同的思路。比如解一道幾何題時(shí),你可能一邊畫(huà)圖,一邊套用公式,同時(shí)還在回想類似題目的解法。這種"多線程"的思考方式讓人類在解決復(fù)雜問(wèn)題時(shí)更加靈活高效。

Parallel-R1的突破就在于成功將這種人類獨(dú)有的思維模式遷移到了人工智能上。但這個(gè)過(guò)程并不簡(jiǎn)單,就像教一個(gè)習(xí)慣了按部就班的人學(xué)會(huì)一心多用一樣困難。

研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是"冷啟動(dòng)問(wèn)題"。AI從來(lái)沒(méi)有見(jiàn)過(guò)平行思維的例子,就像一個(gè)從未聽(tīng)過(guò)交響樂(lè)的人突然要學(xué)習(xí)指揮多個(gè)樂(lè)器同時(shí)演奏。為了解決這個(gè)問(wèn)題,研究人員設(shè)計(jì)了一個(gè)漸進(jìn)式的訓(xùn)練課程。

他們首先用相對(duì)簡(jiǎn)單的數(shù)學(xué)題(比如小學(xué)生常見(jiàn)的應(yīng)用題)來(lái)教AI學(xué)習(xí)平行思維的基本格式。在這個(gè)階段,AI學(xué)會(huì)了使用特殊的標(biāo)記符號(hào):當(dāng)需要開(kāi)啟平行思維時(shí)使用"<Parallel>"標(biāo)簽,不同的思路用"<Path>"標(biāo)簽分隔,最后用"<Summary>"標(biāo)簽總結(jié)各個(gè)思路的結(jié)論。這就像教AI學(xué)會(huì)了一套"思維語(yǔ)言"。

接下來(lái)是更關(guān)鍵的強(qiáng)化學(xué)習(xí)階段。研究人員讓AI在解決更復(fù)雜的數(shù)學(xué)問(wèn)題時(shí)自由探索,通過(guò)獎(jiǎng)勵(lì)機(jī)制鼓勵(lì)A(yù)I主動(dòng)使用平行思維。這個(gè)過(guò)程類似于教孩子騎自行車(chē)——開(kāi)始時(shí)可能搖搖擺擺,但通過(guò)不斷練習(xí)和調(diào)整,最終能夠熟練掌握。

二、兩種架構(gòu)設(shè)計(jì):給AI裝上"思維處理器"

在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)開(kāi)發(fā)了兩種不同的系統(tǒng)架構(gòu),就像給AI裝上了兩種不同類型的"思維處理器"。

第一種被稱為"Parallel-R1-Seen",采用的是相對(duì)寬松的架構(gòu)。在這種設(shè)計(jì)下,AI的不同思維路徑可以相互"窺探",就像幾個(gè)人圍坐在一張桌子旁討論問(wèn)題,每個(gè)人都能聽(tīng)到其他人的想法,并受到影響。這種設(shè)計(jì)的優(yōu)勢(shì)是靈活性高,不同思路之間可以相互啟發(fā),但缺點(diǎn)是可能導(dǎo)致思維路徑之間相互干擾。

第二種架構(gòu)"Parallel-R1-Unseen"則更加嚴(yán)格,采用了特殊的注意力機(jī)制來(lái)確保不同思維路徑完全獨(dú)立。這就像給每個(gè)思維路徑戴上了"隔音耳機(jī)",確保它們不會(huì)相互影響。研究人員通過(guò)修改AI的注意力層和位置編碼來(lái)實(shí)現(xiàn)這種隔離,確保每個(gè)思維路徑只能看到共同的問(wèn)題和自己的思考過(guò)程,而看不到其他路徑的內(nèi)容。

這種設(shè)計(jì)的靈感來(lái)源于人類大腦的工作方式。當(dāng)我們進(jìn)行平行思考時(shí),不同的思維路徑往往是相對(duì)獨(dú)立的,直到最后才匯聚在一起形成綜合判斷。通過(guò)這種架構(gòu)設(shè)計(jì),AI能夠更好地模仿人類的真正平行思維。

令人驚訝的是,實(shí)驗(yàn)結(jié)果顯示第一種相對(duì)寬松的架構(gòu)在實(shí)際應(yīng)用中表現(xiàn)更好。這提醒我們,有時(shí)候完全的隔離并不總是最優(yōu)選擇,適度的信息交流可能反而有助于提升整體性能。

三、訓(xùn)練秘籍:循序漸進(jìn)的學(xué)習(xí)之路

要讓AI學(xué)會(huì)平行思維,訓(xùn)練過(guò)程的設(shè)計(jì)至關(guān)重要。研究團(tuán)隊(duì)采用了類似于人類學(xué)習(xí)的漸進(jìn)式方法,將整個(gè)訓(xùn)練分為三個(gè)階段。

第一階段是基礎(chǔ)格式學(xué)習(xí),就像教小孩學(xué)寫(xiě)字先從筆畫(huà)開(kāi)始一樣。研究人員使用相對(duì)簡(jiǎn)單的GSM8K數(shù)學(xué)題集,讓AI熟悉平行思維的基本表達(dá)方式。在這個(gè)階段,AI主要學(xué)習(xí)何時(shí)使用"<Parallel>"標(biāo)簽,如何在"<Path>"標(biāo)簽內(nèi)組織不同的思路,以及如何在"<Summary>"標(biāo)簽中綜合各種觀點(diǎn)。

這個(gè)階段的關(guān)鍵發(fā)現(xiàn)是,現(xiàn)有的強(qiáng)大AI模型在簡(jiǎn)單問(wèn)題上能夠產(chǎn)生83.6%的高質(zhì)量平行思維數(shù)據(jù),但在復(fù)雜問(wèn)題上的成功率幾乎為零。這就像一個(gè)會(huì)算加減法的孩子突然面對(duì)微積分題目一樣無(wú)從下手。因此,從簡(jiǎn)單問(wèn)題開(kāi)始訓(xùn)練是非常必要的策略選擇。

第二階段是強(qiáng)化學(xué)習(xí)的初步應(yīng)用。在掌握了基本格式后,AI開(kāi)始在同樣的簡(jiǎn)單問(wèn)題上通過(guò)強(qiáng)化學(xué)習(xí)來(lái)鞏固和優(yōu)化平行思維的使用。這個(gè)階段類似于讓學(xué)會(huì)了基本動(dòng)作的運(yùn)動(dòng)員進(jìn)行重復(fù)練習(xí),目標(biāo)是讓平行思維成為一種自然而然的反應(yīng)。

研究人員在這個(gè)階段使用了巧妙的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)。他們不僅獎(jiǎng)勵(lì)A(yù)I得出正確答案,還特別獎(jiǎng)勵(lì)使用平行思維的行為。具體來(lái)說(shuō),只有當(dāng)AI既使用了平行思維又得出了正確答案時(shí),才能獲得最高獎(jiǎng)勵(lì)。這種設(shè)計(jì)確保AI不會(huì)為了追求正確率而放棄平行思維。

第三階段是能力泛化,讓AI在更復(fù)雜的數(shù)學(xué)問(wèn)題上應(yīng)用平行思維。這個(gè)階段使用了DAPO數(shù)據(jù)集,包含了各種高難度的數(shù)學(xué)問(wèn)題。在這個(gè)階段,研究人員主要關(guān)注準(zhǔn)確率的提升,讓AI學(xué)會(huì)在真正困難的問(wèn)題上靈活運(yùn)用平行思維技能。

四、獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì):平衡表演與實(shí)用的藝術(shù)

在訓(xùn)練AI學(xué)習(xí)平行思維的過(guò)程中,獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)起到了關(guān)鍵作用。這就像教育孩子時(shí)的獎(jiǎng)懲制度一樣,設(shè)計(jì)得好能夠引導(dǎo)正確行為,設(shè)計(jì)得不好可能適得其反。

研究團(tuán)隊(duì)嘗試了三種不同的獎(jiǎng)勵(lì)策略。第一種是純粹的準(zhǔn)確率導(dǎo)向,只要AI得出正確答案就給獎(jiǎng)勵(lì),不管是否使用平行思維。這種方法的問(wèn)題在于AI很快就發(fā)現(xiàn),使用平行思維雖然可能得到更好的解決方案,但也增加了出錯(cuò)的風(fēng)險(xiǎn),因此AI傾向于放棄平行思維而采用更保守的單線思維。

第二種策略走向了另一個(gè)極端,只獎(jiǎng)勵(lì)使用平行思維的行為,不管答案是否正確。這種做法的結(jié)果是AI變成了"表演藝術(shù)家",拼命展示復(fù)雜的平行思維過(guò)程,但往往忽略了解決問(wèn)題的實(shí)際效果。

最終,研究團(tuán)隊(duì)發(fā)現(xiàn)了一種巧妙的平衡方案:交替獎(jiǎng)勵(lì)策略。在大部分時(shí)間里(80%),AI因?yàn)榈贸稣_答案而獲得獎(jiǎng)勵(lì);在少數(shù)時(shí)間里(20%),系統(tǒng)會(huì)特別獎(jiǎng)勵(lì)那些既使用了平行思維又得到正確答案的情況。這種方法就像是告訴AI:"我們希望你主要關(guān)注解決問(wèn)題,但偶爾也要展示你的多元思維能力。"

這種設(shè)計(jì)的智慧在于它模仿了人類學(xué)習(xí)的自然過(guò)程。在現(xiàn)實(shí)生活中,我們主要因?yàn)榻鉀Q問(wèn)題而獲得滿足感,但偶爾也會(huì)因?yàn)槭褂昧饲擅畹乃季S方法而感到額外的成就感。通過(guò)這種交替策略,AI學(xué)會(huì)了在追求正確答案的同時(shí)保持思維的多樣性。

五、意外發(fā)現(xiàn):AI思維策略的自然演變

研究過(guò)程中最有趣的發(fā)現(xiàn)之一是AI使用平行思維策略的自然演變。通過(guò)追蹤訓(xùn)練過(guò)程中AI在解題時(shí)啟動(dòng)平行思維的時(shí)機(jī),研究人員發(fā)現(xiàn)了一個(gè)令人驚訝的模式。

在訓(xùn)練初期,AI像一個(gè)毫無(wú)經(jīng)驗(yàn)的新手,一遇到問(wèn)題就匆忙啟動(dòng)平行思維,試圖通過(guò)"撒網(wǎng)式"的探索來(lái)尋找解決方案。這時(shí)的平行思維更多是一種探索工具,AI希望通過(guò)同時(shí)嘗試多種方法來(lái)提高找到正確答案的概率。

隨著訓(xùn)練的深入,AI的行為開(kāi)始發(fā)生微妙的變化。它開(kāi)始更傾向于在解題過(guò)程的后期才啟動(dòng)平行思維,而不是一開(kāi)始就"開(kāi)火全開(kāi)"。這種變化反映了AI策略思維的成熟。

到了訓(xùn)練后期,AI已經(jīng)變成了一個(gè)經(jīng)驗(yàn)豐富的"老手"。它會(huì)首先使用最有把握的方法來(lái)解決問(wèn)題,只有在接近得出最終答案時(shí)才啟動(dòng)平行思維。這時(shí)的平行思維不再是探索工具,而是驗(yàn)證工具——AI用它來(lái)從不同角度檢查自己的答案是否正確。

這種演變過(guò)程非常類似于人類專家的思維發(fā)展軌跡。新手往往會(huì)同時(shí)嘗試很多方法,希望碰運(yùn)氣找到答案;而專家則更傾向于先使用最可靠的方法,然后用其他方法來(lái)驗(yàn)證結(jié)果。AI能夠自發(fā)地展現(xiàn)出這種策略演變,說(shuō)明它不僅學(xué)會(huì)了平行思維的技能,更掌握了如何智慧地使用這種技能。

六、探索支架效應(yīng):平行思維的意外價(jià)值

研究團(tuán)隊(duì)在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)了一個(gè)意想不到的現(xiàn)象,他們稱之為"中期訓(xùn)練探索支架效應(yīng)"。這個(gè)發(fā)現(xiàn)可能比平行思維本身更具革命性意義。

具體來(lái)說(shuō),研究人員設(shè)計(jì)了一個(gè)兩階段實(shí)驗(yàn)。第一階段強(qiáng)制AI使用平行思維來(lái)解決各種問(wèn)題,就像給AI戴上了"多重思維眼鏡",迫使它從多個(gè)角度觀察和分析問(wèn)題。第二階段則取消這種強(qiáng)制要求,讓AI自由選擇是否使用平行思維。

令人驚訝的是,即使在第二階段AI很少主動(dòng)使用平行思維,它的整體表現(xiàn)仍然顯著優(yōu)于那些從未經(jīng)歷過(guò)平行思維訓(xùn)練的AI。在最具挑戰(zhàn)性的AIME25數(shù)學(xué)競(jìng)賽中,經(jīng)歷過(guò)"平行思維洗禮"的AI最終獲得了25.6%的準(zhǔn)確率,相比基線模型提升了42.9%。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)深刻的道理:平行思維的價(jià)值不僅僅在于它能夠直接提升解題能力,更重要的是它在訓(xùn)練過(guò)程中扮演了"思維拓展器"的角色。就像運(yùn)動(dòng)員在訓(xùn)練時(shí)會(huì)做各種看似與比賽無(wú)直接關(guān)系的練習(xí)一樣,平行思維訓(xùn)練幫助AI探索了更廣闊的解題策略空間。

這種"探索支架效應(yīng)"的機(jī)制可能是這樣的:當(dāng)AI被迫使用平行思維時(shí),它必須嘗試各種不同的解題路徑,其中包括一些在常規(guī)訓(xùn)練中永遠(yuǎn)不會(huì)嘗試的方法。這些多樣化的探索經(jīng)歷豐富了AI的"經(jīng)驗(yàn)庫(kù)",即使后來(lái)不再明確使用平行思維,這些經(jīng)驗(yàn)仍然在潛移默化地影響著AI的決策。

七、性能評(píng)估:數(shù)據(jù)說(shuō)話的成果展示

為了全面評(píng)估Parallel-R1的效果,研究團(tuán)隊(duì)在四個(gè)不同難度級(jí)別的數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上進(jìn)行了測(cè)試:AIME'24、AIME'25、AMC'23和MATH。這些測(cè)試就像是給AI安排了從小學(xué)奧數(shù)到國(guó)際數(shù)學(xué)競(jìng)賽的全套考試。

在相對(duì)基礎(chǔ)的MATH數(shù)據(jù)集上,Parallel-R1取得了86.7%的準(zhǔn)確率,相比基準(zhǔn)模型的83.5%有了明顯提升。但真正令人印象深刻的是在高難度競(jìng)賽中的表現(xiàn)。在AIME'25這個(gè)最具挑戰(zhàn)性的測(cè)試中,Parallel-R1達(dá)到了19.2%的準(zhǔn)確率,雖然絕對(duì)數(shù)值看起來(lái)不高,但要知道這些都是連人類數(shù)學(xué)專家都感到困難的題目。

更重要的是性能提升的一致性。在所有四個(gè)測(cè)試集上,Parallel-R1都實(shí)現(xiàn)了穩(wěn)定的性能提升,平均提升幅度達(dá)到了8.4%。這種一致性說(shuō)明平行思維不是在某個(gè)特定類型問(wèn)題上的"偶然成功",而是一種通用的能力提升。

研究團(tuán)隊(duì)還進(jìn)行了大量的消融實(shí)驗(yàn)來(lái)驗(yàn)證設(shè)計(jì)選擇的合理性。他們發(fā)現(xiàn),漸進(jìn)式訓(xùn)練策略中的每個(gè)階段都是必要的。跳過(guò)基礎(chǔ)格式學(xué)習(xí)階段的AI無(wú)法有效掌握平行思維;而跳過(guò)強(qiáng)化學(xué)習(xí)階段的AI雖然能夠生成平行思維的格式,但使用效果大打折扣。

特別值得注意的是不同架構(gòu)設(shè)計(jì)的對(duì)比結(jié)果。雖然理論上完全隔離的"Parallel-R1-Unseen"架構(gòu)看起來(lái)更符合真正的平行思維概念,但在實(shí)際測(cè)試中,允許適度信息交流的"Parallel-R1-Seen"架構(gòu)表現(xiàn)更好。這個(gè)結(jié)果提醒我們,理論上的完美設(shè)計(jì)未必是實(shí)用的最優(yōu)選擇。

八、實(shí)際案例:看AI如何"思考"數(shù)學(xué)題

為了更直觀地展示AI的平行思維能力,研究團(tuán)隊(duì)提供了兩個(gè)具體的解題案例。這些案例像窗口一樣讓我們能夠直接觀察AI的"思維過(guò)程"。

第一個(gè)案例是一道關(guān)于進(jìn)制轉(zhuǎn)換的數(shù)學(xué)題:尋找所有使得17_b整除97_b的整數(shù)進(jìn)制b > 9。面對(duì)這道題,訓(xùn)練早期的AI表現(xiàn)出了典型的探索式平行思維。

AI首先將問(wèn)題轉(zhuǎn)換為十進(jìn)制:17_b = b + 7,97_b = 9b + 7,所以問(wèn)題變成找到所有使得(b + 7)整除(9b + 7)的b值。然后AI啟動(dòng)了平行思維,同時(shí)嘗試兩種不同的方法。

在第一個(gè)思維路徑中,AI使用了因式分解方法。它發(fā)現(xiàn)9b + 7 = 9(b + 7) - 56,因此(b + 7)必須整除56。通過(guò)分析56的因子,AI找到了可能的b值。

在第二個(gè)思維路徑中,AI嘗試了基于進(jìn)制運(yùn)算的方法,從97_b - 17_b = 80_b的角度來(lái)分析問(wèn)題。雖然這個(gè)路徑最終沒(méi)有直接給出答案,但它提供了問(wèn)題的另一種理解方式。

最后,AI綜合兩個(gè)路徑的信息,確認(rèn)b = 21和b = 49是唯一的解,并驗(yàn)證了答案的正確性。整個(gè)過(guò)程展現(xiàn)出了典型的探索式平行思維特征。

第二個(gè)案例展示的是訓(xùn)練后期AI的驗(yàn)證式平行思維。面對(duì)同樣的問(wèn)題,成熟的AI首先使用最直接的方法得出了答案,然后才啟動(dòng)平行思維來(lái)驗(yàn)證結(jié)果。這時(shí)的平行思維更像是一個(gè)"質(zhì)檢員",從不同角度確認(rèn)答案的正確性,而不是用來(lái)尋找解決方案。

九、技術(shù)細(xì)節(jié):讓平行思維成為現(xiàn)實(shí)的關(guān)鍵技術(shù)

要實(shí)現(xiàn)真正的平行思維,技術(shù)實(shí)現(xiàn)層面需要解決許多復(fù)雜的挑戰(zhàn)。研究團(tuán)隊(duì)在這方面做出了多項(xiàng)創(chuàng)新。

在模型架構(gòu)方面,對(duì)于"Parallel-R1-Unseen"變體,研究人員設(shè)計(jì)了專門(mén)的注意力掩碼機(jī)制。這種機(jī)制確保每個(gè)思維路徑只能關(guān)注到共享的問(wèn)題描述和自己的思考內(nèi)容,而看不到其他路徑的內(nèi)容。這就像給每個(gè)思維路徑創(chuàng)造了一個(gè)獨(dú)立的"思考房間"。

位置編碼的處理也是一個(gè)技術(shù)難點(diǎn)。在傳統(tǒng)的序列生成中,每個(gè)詞的位置是連續(xù)編號(hào)的。但在平行思維中,不同路徑可能同時(shí)進(jìn)行,如何給它們分配位置編碼成了問(wèn)題。研究團(tuán)隊(duì)使用了"多宇宙位置編碼"方案,給每個(gè)路徑分配獨(dú)立的位置編碼空間,避免相互干擾。

在訓(xùn)練算法方面,研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO)算法。這個(gè)算法特別適合處理生成多個(gè)候選答案的情況,能夠有效地從多個(gè)平行路徑中學(xué)習(xí)最優(yōu)策略。

數(shù)據(jù)處理也是一個(gè)關(guān)鍵環(huán)節(jié)。研究團(tuán)隊(duì)開(kāi)發(fā)了專門(mén)的格式檢查算法,確保AI生成的平行思維內(nèi)容符合預(yù)期格式。這個(gè)算法類似于編程語(yǔ)言的語(yǔ)法檢查器,能夠識(shí)別標(biāo)簽是否正確配對(duì),思維路徑是否完整等問(wèn)題。

為了確保訓(xùn)練的穩(wěn)定性,研究團(tuán)隊(duì)還設(shè)計(jì)了漸進(jìn)式的數(shù)據(jù)混合策略。在訓(xùn)練初期使用更多簡(jiǎn)單問(wèn)題的數(shù)據(jù),隨著訓(xùn)練的進(jìn)行逐步增加復(fù)雜問(wèn)題的比例。這種策略類似于健身訓(xùn)練中的漸進(jìn)加重,確保AI能夠穩(wěn)步提升而不會(huì)因?yàn)殡y度跳躍過(guò)大而"拉傷"。

歸根結(jié)底,這項(xiàng)研究的意義遠(yuǎn)不止于讓AI學(xué)會(huì)一種新的思考方式。它開(kāi)辟了一個(gè)全新的研究方向:如何讓人工智能獲得更加靈活、多元的推理能力。就像人類從單純的邏輯思維發(fā)展到能夠進(jìn)行創(chuàng)造性思考一樣,AI也正在從機(jī)械化的步驟執(zhí)行向更高層次的認(rèn)知能力邁進(jìn)。

更重要的是,這項(xiàng)研究揭示了一個(gè)深刻的道理:有時(shí)候,訓(xùn)練過(guò)程本身比最終結(jié)果更有價(jià)值。平行思維訓(xùn)練作為"探索支架"所帶來(lái)的能力提升,可能比直接使用平行思維更具實(shí)用意義。這提醒我們,在AI訓(xùn)練中應(yīng)該更多地關(guān)注多樣化探索的價(jià)值。

當(dāng)然,這項(xiàng)研究也還有許多值得進(jìn)一步探索的方向。比如,如何將平行思維擴(kuò)展到數(shù)學(xué)以外的其他領(lǐng)域?如何讓AI自主決定何時(shí)需要使用平行思維?如何處理不同思維路徑之間的沖突?這些問(wèn)題的答案將決定平行思維技術(shù)的未來(lái)發(fā)展前景。

不過(guò)可以肯定的是,Parallel-R1為我們展示了AI發(fā)展的一個(gè)重要方向:不僅要讓AI變得更聰明,更要讓它們的思維變得更加豐富和靈活。就像人類智慧的精髓不在于單一的邏輯鏈條,而在于多元思維的交織融合一樣,未來(lái)的AI可能也需要掌握這種"一心多用"的能力。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究的價(jià)值可能體現(xiàn)在未來(lái)更智能的AI助手上。想象一下,當(dāng)你向AI詢問(wèn)一個(gè)復(fù)雜問(wèn)題時(shí),它不再是給出一個(gè)標(biāo)準(zhǔn)答案,而是能夠同時(shí)從多個(gè)角度分析問(wèn)題,提供更全面、更有深度的回答。這樣的AI助手無(wú)疑會(huì)成為我們思考和決策的更好伙伴。

Q&A

Q1:什么是Parallel-R1系統(tǒng)?它有什么特別之處?

A:Parallel-R1是騰訊AI實(shí)驗(yàn)室開(kāi)發(fā)的首個(gè)能夠進(jìn)行"平行思維"的AI系統(tǒng)。它的特別之處在于能像人類一樣同時(shí)從多個(gè)角度思考問(wèn)題,而不是傳統(tǒng)AI的單線性推理。這個(gè)系統(tǒng)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,讓AI學(xué)會(huì)在解決復(fù)雜數(shù)學(xué)問(wèn)題時(shí)自動(dòng)啟動(dòng)多個(gè)思維路徑并綜合分析結(jié)果。

Q2:平行思維訓(xùn)練對(duì)AI性能提升有多大?

A:實(shí)驗(yàn)結(jié)果顯示,使用平行思維的AI在各種數(shù)學(xué)競(jìng)賽測(cè)試中平均提升了8.4%的準(zhǔn)確率。更驚人的是"探索支架效應(yīng)"——即使AI后來(lái)很少主動(dòng)使用平行思維,經(jīng)歷過(guò)平行思維訓(xùn)練的AI在最難的AIME25數(shù)學(xué)競(jìng)賽中仍然比基線模型提升了42.9%。

Q3:平行思維的AI是如何訓(xùn)練出來(lái)的?

A:研究團(tuán)隊(duì)采用了漸進(jìn)式訓(xùn)練方法。首先用簡(jiǎn)單數(shù)學(xué)題教AI學(xué)會(huì)平行思維的基本格式和標(biāo)簽使用,然后通過(guò)強(qiáng)化學(xué)習(xí)讓AI在這些簡(jiǎn)單題目上熟練掌握技能,最后將這種能力泛化到復(fù)雜的數(shù)學(xué)競(jìng)賽問(wèn)題上。整個(gè)過(guò)程類似于從基礎(chǔ)練習(xí)到高難度挑戰(zhàn)的循序漸進(jìn)學(xué)習(xí)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-