av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="dalp0"><b id="dalp0"></b></blockquote>

<ruby id="dalp0"><thead id="dalp0"></thead></ruby>

<kbd id="dalp0"></kbd>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

騰訊AI實(shí)驗(yàn)室首創(chuàng)"平行思維"：讓AI像人類一樣同時(shí)思考多個(gè)問(wèn)題的訓(xùn)練新方法

強(qiáng)化學(xué)習(xí)平行思維數(shù)學(xué)推理

騰訊AI實(shí)驗(yàn)室首創(chuàng)"平行思維"：讓AI像人類一樣同時(shí)思考多個(gè)問(wèn)題的訓(xùn)練新方法

作者：科技行者

2025-09-24 13:56

分享至：

騰訊AI實(shí)驗(yàn)室開(kāi)發(fā)出全球首個(gè)平行思維AI系統(tǒng)Parallel-R1，通過(guò)強(qiáng)化學(xué)習(xí)讓人工智能掌握了類似人類的多角度同時(shí)思考能力。該系統(tǒng)在數(shù)學(xué)推理測(cè)試中表現(xiàn)顯著提升，平均準(zhǔn)確率提高8.4%，最高提升達(dá)42.9%。研究還發(fā)現(xiàn)AI會(huì)自然演化思維策略，從探索式轉(zhuǎn)向驗(yàn)證式平行思維，展現(xiàn)出類似人類專家的認(rèn)知發(fā)展軌跡。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-24 13:56 ? 科技行者

這項(xiàng)由騰訊AI實(shí)驗(yàn)室西雅圖分部的鄭童等研究人員完成的突破性工作，發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2509.07980v1。有興趣深入了解的讀者可以通過(guò)https://github.com/zhengkid/Parallel-R1訪問(wèn)完整論文和開(kāi)源代碼。

當(dāng)你遇到一道復(fù)雜的數(shù)學(xué)題時(shí)，你的大腦會(huì)做什么？很可能是這樣的：一邊嘗試用公式法求解，一邊考慮能否用圖形方法理解，同時(shí)還在想有沒(méi)有更簡(jiǎn)單的思路。這種"一心多用"的思考方式，就是我們今天要聊的"平行思維"。

現(xiàn)在，騰訊AI實(shí)驗(yàn)室的研究人員成功教會(huì)了人工智能這種原本屬于人類的思考技巧。不同于以往AI只能按部就班、一步步推理的方式，他們開(kāi)發(fā)的Parallel-R1系統(tǒng)讓AI學(xué)會(huì)了"腳踏兩條船"——同時(shí)探索多個(gè)解題路徑，就像一個(gè)熟練的象棋高手能同時(shí)考慮好幾種走法一樣。

這項(xiàng)研究最令人驚嘆的地方在于，它不僅僅是讓AI模仿人類的思考模式，更是通過(guò)強(qiáng)化學(xué)習(xí)讓AI自主發(fā)現(xiàn)和掌握了這種能力。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)AI掌握平行思維后，在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽等高難度數(shù)學(xué)測(cè)試中的表現(xiàn)提升了42.9%，這個(gè)進(jìn)步幅度相當(dāng)可觀。

更有趣的是，研究人員通過(guò)觀察發(fā)現(xiàn)，AI使用平行思維的策略會(huì)隨著訓(xùn)練的深入而發(fā)生變化。剛開(kāi)始學(xué)習(xí)時(shí)，AI像個(gè)初學(xué)者，通過(guò)平行思維來(lái)廣泛探索不同的解題方法，就像撒網(wǎng)捕魚(yú)一樣希望能碰到正確答案。但隨著能力的提升，AI變得更加聰明，開(kāi)始把平行思維當(dāng)作驗(yàn)證工具——先用最有把握的方法得出答案，然后啟動(dòng)平行思維從不同角度驗(yàn)證這個(gè)答案是否正確。

一、從模仿到創(chuàng)新：AI學(xué)會(huì)平行思維的奧秘

要理解這項(xiàng)研究的意義，我們先來(lái)看看傳統(tǒng)AI是怎么解決問(wèn)題的。就像一個(gè)按照食譜做菜的新手廚師，傳統(tǒng)AI只能?chē)?yán)格按照步驟一步步來(lái)：先做A，再做B，最后做C。這種線性思維雖然穩(wěn)定可靠，但遇到復(fù)雜問(wèn)題時(shí)往往效率不高，容易鉆牛角尖。

人類的思維卻完全不同。當(dāng)面對(duì)一個(gè)難題時(shí)，我們的大腦像是開(kāi)了多個(gè)窗口的電腦，可以同時(shí)運(yùn)行幾個(gè)不同的思路。比如解一道幾何題時(shí)，你可能一邊畫(huà)圖，一邊套用公式，同時(shí)還在回想類似題目的解法。這種"多線程"的思考方式讓人類在解決復(fù)雜問(wèn)題時(shí)更加靈活高效。

Parallel-R1的突破就在于成功將這種人類獨(dú)有的思維模式遷移到了人工智能上。但這個(gè)過(guò)程并不簡(jiǎn)單，就像教一個(gè)習(xí)慣了按部就班的人學(xué)會(huì)一心多用一樣困難。

研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是"冷啟動(dòng)問(wèn)題"。AI從來(lái)沒(méi)有見(jiàn)過(guò)平行思維的例子，就像一個(gè)從未聽(tīng)過(guò)交響樂(lè)的人突然要學(xué)習(xí)指揮多個(gè)樂(lè)器同時(shí)演奏。為了解決這個(gè)問(wèn)題，研究人員設(shè)計(jì)了一個(gè)漸進(jìn)式的訓(xùn)練課程。

他們首先用相對(duì)簡(jiǎn)單的數(shù)學(xué)題（比如小學(xué)生常見(jiàn)的應(yīng)用題）來(lái)教AI學(xué)習(xí)平行思維的基本格式。在這個(gè)階段，AI學(xué)會(huì)了使用特殊的標(biāo)記符號(hào)：當(dāng)需要開(kāi)啟平行思維時(shí)使用"<Parallel>"標(biāo)簽，不同的思路用"<Path>"標(biāo)簽分隔，最后用"<Summary>"標(biāo)簽總結(jié)各個(gè)思路的結(jié)論。這就像教AI學(xué)會(huì)了一套"思維語(yǔ)言"。

接下來(lái)是更關(guān)鍵的強(qiáng)化學(xué)習(xí)階段。研究人員讓AI在解決更復(fù)雜的數(shù)學(xué)問(wèn)題時(shí)自由探索，通過(guò)獎(jiǎng)勵(lì)機(jī)制鼓勵(lì)A(yù)I主動(dòng)使用平行思維。這個(gè)過(guò)程類似于教孩子騎自行車(chē)——開(kāi)始時(shí)可能搖搖擺擺，但通過(guò)不斷練習(xí)和調(diào)整，最終能夠熟練掌握。

二、兩種架構(gòu)設(shè)計(jì)：給AI裝上"思維處理器"

在技術(shù)實(shí)現(xiàn)上，研究團(tuán)隊(duì)開(kāi)發(fā)了兩種不同的系統(tǒng)架構(gòu)，就像給AI裝上了兩種不同類型的"思維處理器"。

第一種被稱為"Parallel-R1-Seen"，采用的是相對(duì)寬松的架構(gòu)。在這種設(shè)計(jì)下，AI的不同思維路徑可以相互"窺探"，就像幾個(gè)人圍坐在一張桌子旁討論問(wèn)題，每個(gè)人都能聽(tīng)到其他人的想法，并受到影響。這種設(shè)計(jì)的優(yōu)勢(shì)是靈活性高，不同思路之間可以相互啟發(fā)，但缺點(diǎn)是可能導(dǎo)致思維路徑之間相互干擾。

第二種架構(gòu)"Parallel-R1-Unseen"則更加嚴(yán)格，采用了特殊的注意力機(jī)制來(lái)確保不同思維路徑完全獨(dú)立。這就像給每個(gè)思維路徑戴上了"隔音耳機(jī)"，確保它們不會(huì)相互影響。研究人員通過(guò)修改AI的注意力層和位置編碼來(lái)實(shí)現(xiàn)這種隔離，確保每個(gè)思維路徑只能看到共同的問(wèn)題和自己的思考過(guò)程，而看不到其他路徑的內(nèi)容。

這種設(shè)計(jì)的靈感來(lái)源于人類大腦的工作方式。當(dāng)我們進(jìn)行平行思考時(shí)，不同的思維路徑往往是相對(duì)獨(dú)立的，直到最后才匯聚在一起形成綜合判斷。通過(guò)這種架構(gòu)設(shè)計(jì)，AI能夠更好地模仿人類的真正平行思維。

令人驚訝的是，實(shí)驗(yàn)結(jié)果顯示第一種相對(duì)寬松的架構(gòu)在實(shí)際應(yīng)用中表現(xiàn)更好。這提醒我們，有時(shí)候完全的隔離并不總是最優(yōu)選擇，適度的信息交流可能反而有助于提升整體性能。

三、訓(xùn)練秘籍：循序漸進(jìn)的學(xué)習(xí)之路

要讓AI學(xué)會(huì)平行思維，訓(xùn)練過(guò)程的設(shè)計(jì)至關(guān)重要。研究團(tuán)隊(duì)采用了類似于人類學(xué)習(xí)的漸進(jìn)式方法，將整個(gè)訓(xùn)練分為三個(gè)階段。

第一階段是基礎(chǔ)格式學(xué)習(xí)，就像教小孩學(xué)寫(xiě)字先從筆畫(huà)開(kāi)始一樣。研究人員使用相對(duì)簡(jiǎn)單的GSM8K數(shù)學(xué)題集，讓AI熟悉平行思維的基本表達(dá)方式。在這個(gè)階段，AI主要學(xué)習(xí)何時(shí)使用"<Parallel>"標(biāo)簽，如何在"<Path>"標(biāo)簽內(nèi)組織不同的思路，以及如何在"<Summary>"標(biāo)簽中綜合各種觀點(diǎn)。

這個(gè)階段的關(guān)鍵發(fā)現(xiàn)是，現(xiàn)有的強(qiáng)大AI模型在簡(jiǎn)單問(wèn)題上能夠產(chǎn)生83.6%的高質(zhì)量平行思維數(shù)據(jù)，但在復(fù)雜問(wèn)題上的成功率幾乎為零。這就像一個(gè)會(huì)算加減法的孩子突然面對(duì)微積分題目一樣無(wú)從下手。因此，從簡(jiǎn)單問(wèn)題開(kāi)始訓(xùn)練是非常必要的策略選擇。

第二階段是強(qiáng)化學(xué)習(xí)的初步應(yīng)用。在掌握了基本格式后，AI開(kāi)始在同樣的簡(jiǎn)單問(wèn)題上通過(guò)強(qiáng)化學(xué)習(xí)來(lái)鞏固和優(yōu)化平行思維的使用。這個(gè)階段類似于讓學(xué)會(huì)了基本動(dòng)作的運(yùn)動(dòng)員進(jìn)行重復(fù)練習(xí)，目標(biāo)是讓平行思維成為一種自然而然的反應(yīng)。

研究人員在這個(gè)階段使用了巧妙的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)。他們不僅獎(jiǎng)勵(lì)A(yù)I得出正確答案，還特別獎(jiǎng)勵(lì)使用平行思維的行為。具體來(lái)說(shuō)，只有當(dāng)AI既使用了平行思維又得出了正確答案時(shí)，才能獲得最高獎(jiǎng)勵(lì)。這種設(shè)計(jì)確保AI不會(huì)為了追求正確率而放棄平行思維。

第三階段是能力泛化，讓AI在更復(fù)雜的數(shù)學(xué)問(wèn)題上應(yīng)用平行思維。這個(gè)階段使用了DAPO數(shù)據(jù)集，包含了各種高難度的數(shù)學(xué)問(wèn)題。在這個(gè)階段，研究人員主要關(guān)注準(zhǔn)確率的提升，讓AI學(xué)會(huì)在真正困難的問(wèn)題上靈活運(yùn)用平行思維技能。

四、獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)：平衡表演與實(shí)用的藝術(shù)

在訓(xùn)練AI學(xué)習(xí)平行思維的過(guò)程中，獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)起到了關(guān)鍵作用。這就像教育孩子時(shí)的獎(jiǎng)懲制度一樣，設(shè)計(jì)得好能夠引導(dǎo)正確行為，設(shè)計(jì)得不好可能適得其反。

研究團(tuán)隊(duì)嘗試了三種不同的獎(jiǎng)勵(lì)策略。第一種是純粹的準(zhǔn)確率導(dǎo)向，只要AI得出正確答案就給獎(jiǎng)勵(lì)，不管是否使用平行思維。這種方法的問(wèn)題在于AI很快就發(fā)現(xiàn)，使用平行思維雖然可能得到更好的解決方案，但也增加了出錯(cuò)的風(fēng)險(xiǎn)，因此AI傾向于放棄平行思維而采用更保守的單線思維。

第二種策略走向了另一個(gè)極端，只獎(jiǎng)勵(lì)使用平行思維的行為，不管答案是否正確。這種做法的結(jié)果是AI變成了"表演藝術(shù)家"，拼命展示復(fù)雜的平行思維過(guò)程，但往往忽略了解決問(wèn)題的實(shí)際效果。

最終，研究團(tuán)隊(duì)發(fā)現(xiàn)了一種巧妙的平衡方案：交替獎(jiǎng)勵(lì)策略。在大部分時(shí)間里（80%），AI因?yàn)榈贸稣_答案而獲得獎(jiǎng)勵(lì)；在少數(shù)時(shí)間里（20%），系統(tǒng)會(huì)特別獎(jiǎng)勵(lì)那些既使用了平行思維又得到正確答案的情況。這種方法就像是告訴AI："我們希望你主要關(guān)注解決問(wèn)題，但偶爾也要展示你的多元思維能力。"

這種設(shè)計(jì)的智慧在于它模仿了人類學(xué)習(xí)的自然過(guò)程。在現(xiàn)實(shí)生活中，我們主要因?yàn)榻鉀Q問(wèn)題而獲得滿足感，但偶爾也會(huì)因?yàn)槭褂昧饲擅畹乃季S方法而感到額外的成就感。通過(guò)這種交替策略，AI學(xué)會(huì)了在追求正確答案的同時(shí)保持思維的多樣性。

五、意外發(fā)現(xiàn)：AI思維策略的自然演變

研究過(guò)程中最有趣的發(fā)現(xiàn)之一是AI使用平行思維策略的自然演變。通過(guò)追蹤訓(xùn)練過(guò)程中AI在解題時(shí)啟動(dòng)平行思維的時(shí)機(jī)，研究人員發(fā)現(xiàn)了一個(gè)令人驚訝的模式。

在訓(xùn)練初期，AI像一個(gè)毫無(wú)經(jīng)驗(yàn)的新手，一遇到問(wèn)題就匆忙啟動(dòng)平行思維，試圖通過(guò)"撒網(wǎng)式"的探索來(lái)尋找解決方案。這時(shí)的平行思維更多是一種探索工具，AI希望通過(guò)同時(shí)嘗試多種方法來(lái)提高找到正確答案的概率。

隨著訓(xùn)練的深入，AI的行為開(kāi)始發(fā)生微妙的變化。它開(kāi)始更傾向于在解題過(guò)程的后期才啟動(dòng)平行思維，而不是一開(kāi)始就"開(kāi)火全開(kāi)"。這種變化反映了AI策略思維的成熟。

到了訓(xùn)練后期，AI已經(jīng)變成了一個(gè)經(jīng)驗(yàn)豐富的"老手"。它會(huì)首先使用最有把握的方法來(lái)解決問(wèn)題，只有在接近得出最終答案時(shí)才啟動(dòng)平行思維。這時(shí)的平行思維不再是探索工具，而是驗(yàn)證工具——AI用它來(lái)從不同角度檢查自己的答案是否正確。

這種演變過(guò)程非常類似于人類專家的思維發(fā)展軌跡。新手往往會(huì)同時(shí)嘗試很多方法，希望碰運(yùn)氣找到答案；而專家則更傾向于先使用最可靠的方法，然后用其他方法來(lái)驗(yàn)證結(jié)果。AI能夠自發(fā)地展現(xiàn)出這種策略演變，說(shuō)明它不僅學(xué)會(huì)了平行思維的技能，更掌握了如何智慧地使用這種技能。

六、探索支架效應(yīng)：平行思維的意外價(jià)值

研究團(tuán)隊(duì)在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)了一個(gè)意想不到的現(xiàn)象，他們稱之為"中期訓(xùn)練探索支架效應(yīng)"。這個(gè)發(fā)現(xiàn)可能比平行思維本身更具革命性意義。

具體來(lái)說(shuō)，研究人員設(shè)計(jì)了一個(gè)兩階段實(shí)驗(yàn)。第一階段強(qiáng)制AI使用平行思維來(lái)解決各種問(wèn)題，就像給AI戴上了"多重思維眼鏡"，迫使它從多個(gè)角度觀察和分析問(wèn)題。第二階段則取消這種強(qiáng)制要求，讓AI自由選擇是否使用平行思維。

令人驚訝的是，即使在第二階段AI很少主動(dòng)使用平行思維，它的整體表現(xiàn)仍然顯著優(yōu)于那些從未經(jīng)歷過(guò)平行思維訓(xùn)練的AI。在最具挑戰(zhàn)性的AIME25數(shù)學(xué)競(jìng)賽中，經(jīng)歷過(guò)"平行思維洗禮"的AI最終獲得了25.6%的準(zhǔn)確率，相比基線模型提升了42.9%。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)深刻的道理：平行思維的價(jià)值不僅僅在于它能夠直接提升解題能力，更重要的是它在訓(xùn)練過(guò)程中扮演了"思維拓展器"的角色。就像運(yùn)動(dòng)員在訓(xùn)練時(shí)會(huì)做各種看似與比賽無(wú)直接關(guān)系的練習(xí)一樣，平行思維訓(xùn)練幫助AI探索了更廣闊的解題策略空間。

這種"探索支架效應(yīng)"的機(jī)制可能是這樣的：當(dāng)AI被迫使用平行思維時(shí)，它必須嘗試各種不同的解題路徑，其中包括一些在常規(guī)訓(xùn)練中永遠(yuǎn)不會(huì)嘗試的方法。這些多樣化的探索經(jīng)歷豐富了AI的"經(jīng)驗(yàn)庫(kù)"，即使后來(lái)不再明確使用平行思維，這些經(jīng)驗(yàn)仍然在潛移默化地影響著AI的決策。

七、性能評(píng)估：數(shù)據(jù)說(shuō)話的成果展示

為了全面評(píng)估Parallel-R1的效果，研究團(tuán)隊(duì)在四個(gè)不同難度級(jí)別的數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上進(jìn)行了測(cè)試：AIME'24、AIME'25、AMC'23和MATH。這些測(cè)試就像是給AI安排了從小學(xué)奧數(shù)到國(guó)際數(shù)學(xué)競(jìng)賽的全套考試。

在相對(duì)基礎(chǔ)的MATH數(shù)據(jù)集上，Parallel-R1取得了86.7%的準(zhǔn)確率，相比基準(zhǔn)模型的83.5%有了明顯提升。但真正令人印象深刻的是在高難度競(jìng)賽中的表現(xiàn)。在AIME'25這個(gè)最具挑戰(zhàn)性的測(cè)試中，Parallel-R1達(dá)到了19.2%的準(zhǔn)確率，雖然絕對(duì)數(shù)值看起來(lái)不高，但要知道這些都是連人類數(shù)學(xué)專家都感到困難的題目。

更重要的是性能提升的一致性。在所有四個(gè)測(cè)試集上，Parallel-R1都實(shí)現(xiàn)了穩(wěn)定的性能提升，平均提升幅度達(dá)到了8.4%。這種一致性說(shuō)明平行思維不是在某個(gè)特定類型問(wèn)題上的"偶然成功"，而是一種通用的能力提升。

研究團(tuán)隊(duì)還進(jìn)行了大量的消融實(shí)驗(yàn)來(lái)驗(yàn)證設(shè)計(jì)選擇的合理性。他們發(fā)現(xiàn)，漸進(jìn)式訓(xùn)練策略中的每個(gè)階段都是必要的。跳過(guò)基礎(chǔ)格式學(xué)習(xí)階段的AI無(wú)法有效掌握平行思維；而跳過(guò)強(qiáng)化學(xué)習(xí)階段的AI雖然能夠生成平行思維的格式，但使用效果大打折扣。

特別值得注意的是不同架構(gòu)設(shè)計(jì)的對(duì)比結(jié)果。雖然理論上完全隔離的"Parallel-R1-Unseen"架構(gòu)看起來(lái)更符合真正的平行思維概念，但在實(shí)際測(cè)試中，允許適度信息交流的"Parallel-R1-Seen"架構(gòu)表現(xiàn)更好。這個(gè)結(jié)果提醒我們，理論上的完美設(shè)計(jì)未必是實(shí)用的最優(yōu)選擇。

八、實(shí)際案例：看AI如何"思考"數(shù)學(xué)題

為了更直觀地展示AI的平行思維能力，研究團(tuán)隊(duì)提供了兩個(gè)具體的解題案例。這些案例像窗口一樣讓我們能夠直接觀察AI的"思維過(guò)程"。

第一個(gè)案例是一道關(guān)于進(jìn)制轉(zhuǎn)換的數(shù)學(xué)題：尋找所有使得17_b整除97_b的整數(shù)進(jìn)制b > 9。面對(duì)這道題，訓(xùn)練早期的AI表現(xiàn)出了典型的探索式平行思維。

AI首先將問(wèn)題轉(zhuǎn)換為十進(jìn)制：17_b = b + 7，97_b = 9b + 7，所以問(wèn)題變成找到所有使得(b + 7)整除(9b + 7)的b值。然后AI啟動(dòng)了平行思維，同時(shí)嘗試兩種不同的方法。

在第一個(gè)思維路徑中，AI使用了因式分解方法。它發(fā)現(xiàn)9b + 7 = 9(b + 7) - 56，因此(b + 7)必須整除56。通過(guò)分析56的因子，AI找到了可能的b值。

在第二個(gè)思維路徑中，AI嘗試了基于進(jìn)制運(yùn)算的方法，從97_b - 17_b = 80_b的角度來(lái)分析問(wèn)題。雖然這個(gè)路徑最終沒(méi)有直接給出答案，但它提供了問(wèn)題的另一種理解方式。

最后，AI綜合兩個(gè)路徑的信息，確認(rèn)b = 21和b = 49是唯一的解，并驗(yàn)證了答案的正確性。整個(gè)過(guò)程展現(xiàn)出了典型的探索式平行思維特征。

第二個(gè)案例展示的是訓(xùn)練后期AI的驗(yàn)證式平行思維。面對(duì)同樣的問(wèn)題，成熟的AI首先使用最直接的方法得出了答案，然后才啟動(dòng)平行思維來(lái)驗(yàn)證結(jié)果。這時(shí)的平行思維更像是一個(gè)"質(zhì)檢員"，從不同角度確認(rèn)答案的正確性，而不是用來(lái)尋找解決方案。

九、技術(shù)細(xì)節(jié)：讓平行思維成為現(xiàn)實(shí)的關(guān)鍵技術(shù)

要實(shí)現(xiàn)真正的平行思維，技術(shù)實(shí)現(xiàn)層面需要解決許多復(fù)雜的挑戰(zhàn)。研究團(tuán)隊(duì)在這方面做出了多項(xiàng)創(chuàng)新。

在模型架構(gòu)方面，對(duì)于"Parallel-R1-Unseen"變體，研究人員設(shè)計(jì)了專門(mén)的注意力掩碼機(jī)制。這種機(jī)制確保每個(gè)思維路徑只能關(guān)注到共享的問(wèn)題描述和自己的思考內(nèi)容，而看不到其他路徑的內(nèi)容。這就像給每個(gè)思維路徑創(chuàng)造了一個(gè)獨(dú)立的"思考房間"。

位置編碼的處理也是一個(gè)技術(shù)難點(diǎn)。在傳統(tǒng)的序列生成中，每個(gè)詞的位置是連續(xù)編號(hào)的。但在平行思維中，不同路徑可能同時(shí)進(jìn)行，如何給它們分配位置編碼成了問(wèn)題。研究團(tuán)隊(duì)使用了"多宇宙位置編碼"方案，給每個(gè)路徑分配獨(dú)立的位置編碼空間，避免相互干擾。

在訓(xùn)練算法方面，研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO)算法。這個(gè)算法特別適合處理生成多個(gè)候選答案的情況，能夠有效地從多個(gè)平行路徑中學(xué)習(xí)最優(yōu)策略。

數(shù)據(jù)處理也是一個(gè)關(guān)鍵環(huán)節(jié)。研究團(tuán)隊(duì)開(kāi)發(fā)了專門(mén)的格式檢查算法，確保AI生成的平行思維內(nèi)容符合預(yù)期格式。這個(gè)算法類似于編程語(yǔ)言的語(yǔ)法檢查器，能夠識(shí)別標(biāo)簽是否正確配對(duì)，思維路徑是否完整等問(wèn)題。

為了確保訓(xùn)練的穩(wěn)定性，研究團(tuán)隊(duì)還設(shè)計(jì)了漸進(jìn)式的數(shù)據(jù)混合策略。在訓(xùn)練初期使用更多簡(jiǎn)單問(wèn)題的數(shù)據(jù)，隨著訓(xùn)練的進(jìn)行逐步增加復(fù)雜問(wèn)題的比例。這種策略類似于健身訓(xùn)練中的漸進(jìn)加重，確保AI能夠穩(wěn)步提升而不會(huì)因?yàn)殡y度跳躍過(guò)大而"拉傷"。

歸根結(jié)底，這項(xiàng)研究的意義遠(yuǎn)不止于讓AI學(xué)會(huì)一種新的思考方式。它開(kāi)辟了一個(gè)全新的研究方向：如何讓人工智能獲得更加靈活、多元的推理能力。就像人類從單純的邏輯思維發(fā)展到能夠進(jìn)行創(chuàng)造性思考一樣，AI也正在從機(jī)械化的步驟執(zhí)行向更高層次的認(rèn)知能力邁進(jìn)。

更重要的是，這項(xiàng)研究揭示了一個(gè)深刻的道理：有時(shí)候，訓(xùn)練過(guò)程本身比最終結(jié)果更有價(jià)值。平行思維訓(xùn)練作為"探索支架"所帶來(lái)的能力提升，可能比直接使用平行思維更具實(shí)用意義。這提醒我們，在AI訓(xùn)練中應(yīng)該更多地關(guān)注多樣化探索的價(jià)值。

當(dāng)然，這項(xiàng)研究也還有許多值得進(jìn)一步探索的方向。比如，如何將平行思維擴(kuò)展到數(shù)學(xué)以外的其他領(lǐng)域？如何讓AI自主決定何時(shí)需要使用平行思維？如何處理不同思維路徑之間的沖突？這些問(wèn)題的答案將決定平行思維技術(shù)的未來(lái)發(fā)展前景。

不過(guò)可以肯定的是，Parallel-R1為我們展示了AI發(fā)展的一個(gè)重要方向：不僅要讓AI變得更聰明，更要讓它們的思維變得更加豐富和靈活。就像人類智慧的精髓不在于單一的邏輯鏈條，而在于多元思維的交織融合一樣，未來(lái)的AI可能也需要掌握這種"一心多用"的能力。

對(duì)于普通人來(lái)說(shuō)，這項(xiàng)研究的價(jià)值可能體現(xiàn)在未來(lái)更智能的AI助手上。想象一下，當(dāng)你向AI詢問(wèn)一個(gè)復(fù)雜問(wèn)題時(shí)，它不再是給出一個(gè)標(biāo)準(zhǔn)答案，而是能夠同時(shí)從多個(gè)角度分析問(wèn)題，提供更全面、更有深度的回答。這樣的AI助手無(wú)疑會(huì)成為我們思考和決策的更好伙伴。

Q&A

Q1：什么是Parallel-R1系統(tǒng)？它有什么特別之處？

A：Parallel-R1是騰訊AI實(shí)驗(yàn)室開(kāi)發(fā)的首個(gè)能夠進(jìn)行"平行思維"的AI系統(tǒng)。它的特別之處在于能像人類一樣同時(shí)從多個(gè)角度思考問(wèn)題，而不是傳統(tǒng)AI的單線性推理。這個(gè)系統(tǒng)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練，讓AI學(xué)會(huì)在解決復(fù)雜數(shù)學(xué)問(wèn)題時(shí)自動(dòng)啟動(dòng)多個(gè)思維路徑并綜合分析結(jié)果。

Q2：平行思維訓(xùn)練對(duì)AI性能提升有多大？

A：實(shí)驗(yàn)結(jié)果顯示，使用平行思維的AI在各種數(shù)學(xué)競(jìng)賽測(cè)試中平均提升了8.4%的準(zhǔn)確率。更驚人的是"探索支架效應(yīng)"——即使AI后來(lái)很少主動(dòng)使用平行思維，經(jīng)歷過(guò)平行思維訓(xùn)練的AI在最難的AIME25數(shù)學(xué)競(jìng)賽中仍然比基線模型提升了42.9%。

Q3：平行思維的AI是如何訓(xùn)練出來(lái)的？

A：研究團(tuán)隊(duì)采用了漸進(jìn)式訓(xùn)練方法。首先用簡(jiǎn)單數(shù)學(xué)題教AI學(xué)會(huì)平行思維的基本格式和標(biāo)簽使用，然后通過(guò)強(qiáng)化學(xué)習(xí)讓AI在這些簡(jiǎn)單題目上熟練掌握技能，最后將這種能力泛化到復(fù)雜的數(shù)學(xué)競(jìng)賽問(wèn)題上。整個(gè)過(guò)程類似于從基礎(chǔ)練習(xí)到高難度挑戰(zhàn)的循序漸進(jìn)學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)平行思維數(shù)學(xué)推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<center id="rqv7z"><video id="rqv7z"></video></center>