av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<abbr id="s8s1y"><dl id="s8s1y"></dl></abbr>

<tt id="s8s1y"><nobr id="s8s1y"></nobr></tt>

<rt id="s8s1y"></rt>

<cite id="s8s1y"><source id="s8s1y"></source></cite>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

超越馬爾可夫：貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)讓大語(yǔ)言模型反思性探索更高效

人工智能強(qiáng)化學(xué)習(xí)大語(yǔ)言模型推理

超越馬爾可夫：貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)讓大語(yǔ)言模型反思性探索更高效

作者：科技行者

2025-05-30 17:24

分享至：

這項(xiàng)來(lái)自西北大學(xué)和谷歌的研究突破了傳統(tǒng)馬爾可夫強(qiáng)化學(xué)習(xí)的局限，通過(guò)貝葉斯自適應(yīng)RL框架解釋了大語(yǔ)言模型中涌現(xiàn)的反思性推理行為。研究團(tuán)隊(duì)提出的BARL算法通過(guò)維護(hù)多個(gè)解題策略的后驗(yàn)分布，指導(dǎo)模型何時(shí)何地進(jìn)行反思性探索，在數(shù)學(xué)推理任務(wù)上展現(xiàn)出顯著優(yōu)勢(shì)，比基線方法減少高達(dá)50%的標(biāo)記使用量，同時(shí)提高了準(zhǔn)確率。這一研究不僅解釋了"為什么反思有用"，還提供了實(shí)用的指導(dǎo)原則，為AI系統(tǒng)的自適應(yīng)推理能力開辟了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 17:24 ? 科技行者

論文基本信息

這項(xiàng)研究由西北大學(xué)、谷歌DeepMind和谷歌團(tuán)隊(duì)合作完成，第一作者為西北大學(xué)的張申奧（在谷歌實(shí)習(xí)期間完成），通訊作者為西北大學(xué)的Zhaoran Wang和谷歌的Yunxuan Li。論文題為《Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning》，發(fā)表于2025年5月26日的arXiv預(yù)印本平臺(tái)（arXiv:2505.20561v1），研究代碼已在GitHub開源：https://github.com/shenao-zhang/BARL。

一、研究背景：為什么大語(yǔ)言模型需要反思？

想象一下，你正在解決一道復(fù)雜的數(shù)學(xué)題。解題過(guò)程中，你可能會(huì)意識(shí)到自己走錯(cuò)了方向，于是回到前面的步驟，重新思考，嘗試不同的解法。這種"啊哈！我明白哪里出錯(cuò)了"的時(shí)刻，在人類思考過(guò)程中非常自然。令人驚訝的是，經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的大語(yǔ)言模型（LLMs）也表現(xiàn)出類似的行為——它們能夠生成長(zhǎng)篇的思維鏈（Chain-of-Thought），進(jìn)行自我反思，并回溯糾正先前的錯(cuò)誤。

然而，傳統(tǒng)的馬爾可夫強(qiáng)化學(xué)習(xí)（RL）框架對(duì)這種現(xiàn)象的出現(xiàn)卻無(wú)法給出充分解釋。在馬爾可夫RL中，模型在訓(xùn)練階段通過(guò)大量嘗試錯(cuò)誤來(lái)學(xué)習(xí)最優(yōu)策略，而在測(cè)試階段則完全依賴這一確定性策略，不再進(jìn)行探索。此外，馬爾可夫假設(shè)限制了策略只能基于當(dāng)前狀態(tài)而非整個(gè)歷史上下文做決策。因此，馬爾可夫RL既無(wú)法保證反思性探索在訓(xùn)練中自然涌現(xiàn)，也難以解釋為何這種行為在測(cè)試時(shí)有益。

西北大學(xué)和谷歌的研究團(tuán)隊(duì)針對(duì)這一問(wèn)題提出了全新視角：將反思性探索重新定義為貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)（Bayes-Adaptive RL）問(wèn)題。這種方法顯式優(yōu)化了在馬爾可夫決策過(guò)程（MDP）后驗(yàn)分布下的期望回報(bào)，同時(shí)激勵(lì)模型進(jìn)行獎(jiǎng)勵(lì)最大化（利用）和信息收集（探索）的行為。研究團(tuán)隊(duì)基于此框架提出了BARL（Bayes-Adaptive RL for LLM Reasoning）算法，為大語(yǔ)言模型提供了何時(shí)以及如何進(jìn)行反思性探索的原則性指導(dǎo)。

二、馬爾可夫RL的局限性：為何無(wú)法解釋反思行為

想象你在一片迷宮中，每走一步只能看到當(dāng)前所處的房間，而無(wú)法記住你之前的路徑。這就是馬爾可夫決策過(guò)程的本質(zhì)——當(dāng)前決策只依賴于當(dāng)前狀態(tài)，而不考慮到達(dá)該狀態(tài)的歷史路徑。

在傳統(tǒng)馬爾可夫RL中，訓(xùn)練與測(cè)試存在明確分工：訓(xùn)練時(shí)進(jìn)行大量探索以找到最優(yōu)策略，測(cè)試時(shí)則嚴(yán)格執(zhí)行這一確定性策略。研究團(tuán)隊(duì)通過(guò)理論證明揭示了馬爾可夫RL的兩大局限性：

首先，馬爾可夫策略的最優(yōu)性可以通過(guò)簡(jiǎn)單記憶訓(xùn)練解決方案實(shí)現(xiàn)。由于探索僅限于訓(xùn)練階段，系統(tǒng)能夠通過(guò)反復(fù)試錯(cuò)發(fā)現(xiàn)回報(bào)最大化的行動(dòng)序列，并在測(cè)試時(shí)完全利用這些記憶的解決方案。這就像你在考試前反復(fù)練習(xí)標(biāo)準(zhǔn)題目，考試時(shí)直接套用記憶的解法，而不是實(shí)時(shí)思考和適應(yīng)。

其次，馬爾可夫假設(shè)限制策略僅基于當(dāng)前狀態(tài)而非歷史上下文做決策。這意味著即使模型走進(jìn)了死胡同，它也無(wú)法利用過(guò)去探索積累的上下文信息來(lái)調(diào)整策略，從而缺乏動(dòng)態(tài)自適應(yīng)的能力。就像你在迷宮中，即使已經(jīng)探索了多條路徑，也無(wú)法利用這些經(jīng)驗(yàn)來(lái)改變當(dāng)前的決策策略。

研究團(tuán)隊(duì)證明，在有限步長(zhǎng)和折扣無(wú)限步長(zhǎng)的MDP中，反思性策略比非反思性策略更次優(yōu)，因?yàn)榧m正錯(cuò)誤需要額外的步驟。這也就是說(shuō)，從純馬爾可夫RL的角度看，反思行為似乎是不必要的。然而實(shí)際中，經(jīng)過(guò)RL訓(xùn)練的LLMs卻展現(xiàn)出明顯的反思行為，尤其是在生成長(zhǎng)思維鏈時(shí)。這一矛盾表明，傳統(tǒng)RL框架難以充分解釋LLMs中涌現(xiàn)的反思性探索行為。

三、貝葉斯自適應(yīng)RL：為反思行為提供理論基礎(chǔ)

研究團(tuán)隊(duì)提出，貝葉斯自適應(yīng)RL框架能更好地解釋和指導(dǎo)LLM的反思性探索。這一框架將問(wèn)題重新定義為在MDP后驗(yàn)分布下優(yōu)化期望回報(bào)，其核心思想可以通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)理解：

想象你是一位偵探，面對(duì)多個(gè)可能的案件線索（即不同的MDP假設(shè)）。在傳統(tǒng)馬爾可夫RL中，你會(huì)選擇最有可能的線索并堅(jiān)定地沿著它調(diào)查到底，無(wú)論途中遇到什么矛盾。而在貝葉斯自適應(yīng)RL中，你會(huì)同時(shí)考慮多條線索的可能性，隨著調(diào)查深入不斷更新對(duì)各條線索可信度的評(píng)估（信念更新），并根據(jù)最新信息動(dòng)態(tài)調(diào)整調(diào)查方向。

貝葉斯自適應(yīng)RL框架通過(guò)信念更新過(guò)程自然地激勵(lì)了兩種行為：一是追求高回報(bào)的利用行為，二是收集更多信息以減少不確定性的探索行為。當(dāng)模型發(fā)現(xiàn)當(dāng)前策略與觀察到的獎(jiǎng)勵(lì)不一致時(shí)，它會(huì)自動(dòng)降低對(duì)該策略的信念，并切換到其他可能的策略。這種機(jī)制完美解釋了LLM在推理過(guò)程中的"啊哈時(shí)刻"——意識(shí)到錯(cuò)誤并轉(zhuǎn)向新方向的現(xiàn)象。

研究團(tuán)隊(duì)通過(guò)理論證明，貝葉斯自適應(yīng)策略的測(cè)試時(shí)期望回報(bào)可以比最優(yōu)馬爾可夫策略高出指數(shù)級(jí)。這意味著，能夠根據(jù)新信息動(dòng)態(tài)調(diào)整策略的自適應(yīng)方法，在測(cè)試時(shí)泛化能力遠(yuǎn)優(yōu)于僅記憶訓(xùn)練解決方案的確定性策略。

四、BARL算法：讓大語(yǔ)言模型學(xué)會(huì)何時(shí)何地進(jìn)行反思

基于貝葉斯自適應(yīng)RL框架，研究團(tuán)隊(duì)開發(fā)了BARL算法，為L(zhǎng)LM提供了何時(shí)以及如何進(jìn)行反思性探索的明確指導(dǎo)。BARL算法的工作原理就像一個(gè)智能偵探團(tuán)隊(duì)，同時(shí)考慮多個(gè)解題策略（MDP假設(shè)），并根據(jù)已觀察到的線索（獎(jiǎng)勵(lì)）不斷更新對(duì)各策略可信度的評(píng)估。

具體來(lái)說(shuō)，BARL為每個(gè)輸入問(wèn)題執(zhí)行以下步驟：

首先，讓LLM生成多個(gè)候選答案，每個(gè)答案對(duì)應(yīng)一個(gè)MDP假設(shè)。這就像偵探團(tuán)隊(duì)提出多種破案思路，準(zhǔn)備逐一驗(yàn)證。

其次，根據(jù)模型當(dāng)前的信念，為每個(gè)假設(shè)分配權(quán)重。這相當(dāng)于偵探團(tuán)隊(duì)對(duì)各種可能性的初步評(píng)估。

第三，隨著推理過(guò)程的進(jìn)行，通過(guò)比較預(yù)測(cè)獎(jiǎng)勵(lì)與實(shí)際觀察到的獎(jiǎng)勵(lì)之間的差異，不斷更新對(duì)各假設(shè)的信念。當(dāng)發(fā)現(xiàn)某個(gè)假設(shè)預(yù)測(cè)的獎(jiǎng)勵(lì)與實(shí)際觀察嚴(yán)重不符時(shí)，該假設(shè)的權(quán)重會(huì)大幅降低，促使模型切換策略。這就像偵探發(fā)現(xiàn)某條線索與證據(jù)不符，立即調(diào)整調(diào)查方向。

BARL算法的狀態(tài)-動(dòng)作值由三個(gè)組件加權(quán)計(jì)算：

1. 在特定MDP假設(shè)下的值函數(shù)，反映了該策略的潛在回報(bào)。 2. LLM對(duì)該MDP假設(shè)的信念，即模型認(rèn)為該答案的合理性。 3. 觀察到的獎(jiǎng)勵(lì)與該MDP假設(shè)預(yù)測(cè)獎(jiǎng)勵(lì)的一致性，用于判斷是否需要切換策略。

通過(guò)這種方式，BARL提供了一種有原則的方法來(lái)整合和修正各種可能的策略，類似于線性化的N種最佳推理，但具有明確的步級(jí)指導(dǎo)，告訴模型何時(shí)以及如何進(jìn)行反思性探索。

五、實(shí)驗(yàn)驗(yàn)證：從合成任務(wù)到數(shù)學(xué)推理

研究團(tuán)隊(duì)通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了BARL的有效性，首先從一個(gè)簡(jiǎn)單的合成任務(wù)開始，模擬LLM推理中的測(cè)試時(shí)泛化問(wèn)題。

### 合成任務(wù)實(shí)驗(yàn)

這個(gè)任務(wù)設(shè)計(jì)得非常巧妙：智能體需要連續(xù)重復(fù)提示詞中的標(biāo)記恰好三次才能獲得獎(jiǎng)勵(lì)。訓(xùn)練時(shí)使用的提示詞標(biāo)記是0或1，而測(cè)試時(shí)則是2。這就像訓(xùn)練一個(gè)模型解決類型A和B的問(wèn)題，但測(cè)試時(shí)卻給它一個(gè)全新的類型C問(wèn)題。

實(shí)驗(yàn)結(jié)果清晰地展示了不同方法的差異：傳統(tǒng)馬爾可夫RL快速記憶了訓(xùn)練解決方案（重復(fù)0或1三次），但在測(cè)試時(shí)完全無(wú)法泛化到新標(biāo)記2。相比之下，BARL在訓(xùn)練和測(cè)試階段都表現(xiàn)出更好的性能。特別是當(dāng)給予模型先驗(yàn)知識(shí)（即獎(jiǎng)勵(lì)與重復(fù)模式有關(guān)）時(shí)，BARL的準(zhǔn)確率和收斂速度進(jìn)一步提高。這強(qiáng)調(diào)了平衡候選集多樣性和合理性的重要性——候選集應(yīng)足夠多樣以捕捉測(cè)試時(shí)的不確定性，但又要足夠合理以縮小假設(shè)空間。

### 數(shù)學(xué)推理任務(wù)實(shí)驗(yàn)

研究團(tuán)隊(duì)進(jìn)一步在各種LLM上評(píng)估了BARL，包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B和DeepSeek-R1-Distill-Llama-8B。評(píng)估基準(zhǔn)包括GSM8K、MATH、CollegeMath和OlympiadBench等數(shù)學(xué)推理任務(wù)。

實(shí)驗(yàn)結(jié)果表明，BARL在大多數(shù)基準(zhǔn)測(cè)試上的準(zhǔn)確率都優(yōu)于馬爾可夫RL基線（如GRPO和進(jìn)度獎(jiǎng)勵(lì)基線）。更令人印象深刻的是，BARL表現(xiàn)出顯著更高的標(biāo)記效率，與進(jìn)度基線相比減少了多達(dá)39%的平均標(biāo)記數(shù)，與GRPO相比減少了50%，與Qwen2.5-Math-1.5B基礎(chǔ)模型相比減少了90%以上。

研究者們還發(fā)現(xiàn)，模型整體性能與反思頻率之間并無(wú)強(qiáng)相關(guān)性。BARL的優(yōu)勢(shì)主要來(lái)自于更高效的探索和更有效的思考標(biāo)記，而非簡(jiǎn)單地增加反思的頻率。這表明，反思的質(zhì)量比數(shù)量更重要。

六、關(guān)鍵發(fā)現(xiàn)：為什么、何時(shí)、如何進(jìn)行反思

通過(guò)理論分析和實(shí)驗(yàn)驗(yàn)證，研究團(tuán)隊(duì)總結(jié)了LLM推理反思的三個(gè)關(guān)鍵問(wèn)題：為什么、如何以及何時(shí)應(yīng)該進(jìn)行反思。

### 為什么需要反思？

馬爾可夫RL無(wú)法確保反思性探索的涌現(xiàn)，也無(wú)法解釋其在測(cè)試時(shí)的益處，因?yàn)椋?1)探索僅限于訓(xùn)練階段，以學(xué)習(xí)并在測(cè)試時(shí)純粹利用最優(yōu)確定性策略，該策略可能僅僅記憶訓(xùn)練解決方案；(2)狀態(tài)條件策略缺乏收集額外上下文和回溯的動(dòng)機(jī)。相比之下，貝葉斯自適應(yīng)RL通過(guò)優(yōu)化測(cè)試時(shí)的泛化能力，鼓勵(lì)探索收集上下文信息，從而減少M(fèi)DP的不確定性。

### 如何進(jìn)行反思？

BARL提供了一種有原則的方式來(lái)拼接可行策略，通過(guò)維護(hù)MDP假設(shè)的后驗(yàn)分布，每個(gè)假設(shè)都與采樣的候選答案相關(guān)聯(lián)。反思性探索通過(guò)假設(shè)消除自然涌現(xiàn)，使模型能夠?qū)崟r(shí)適應(yīng)。

### 何時(shí)進(jìn)行反思？

當(dāng)LLM的內(nèi)部信念與累積獎(jiǎng)勵(lì)反饋之間出現(xiàn)差異時(shí)，應(yīng)該進(jìn)行自我反思。這種差異通過(guò)降低那些具有高信念概率但基于先前觀察不太可能最優(yōu)的假設(shè)的權(quán)重，發(fā)出切換策略的信號(hào)。

七、總結(jié)與未來(lái)展望

這項(xiàng)研究為理解和增強(qiáng)LLM的推理能力提供了全新視角。通過(guò)將反思性探索重新定義為貝葉斯自適應(yīng)RL問(wèn)題，研究團(tuán)隊(duì)不僅解釋了為什么反思行為有益，還提出了BARL算法，為模型提供何時(shí)以及如何進(jìn)行反思性探索的原則性指導(dǎo)。

實(shí)驗(yàn)結(jié)果表明，BARL在合成任務(wù)和數(shù)學(xué)推理任務(wù)上均優(yōu)于傳統(tǒng)馬爾可夫RL方法，表現(xiàn)出更高的準(zhǔn)確率和標(biāo)記效率。特別值得注意的是，模型性能與反思行為的關(guān)鍵相關(guān)因素不是反思的頻率，而是探索的效率和思考標(biāo)記的有效性。

未來(lái)，研究團(tuán)隊(duì)計(jì)劃將BARL方法擴(kuò)展到更廣泛的領(lǐng)域，如編程和智能體任務(wù)。這項(xiàng)研究不僅推進(jìn)了我們對(duì)LLM推理能力的理解，還為開發(fā)更高效、更靈活的AI系統(tǒng)提供了新的方向。

對(duì)于關(guān)注AI發(fā)展的讀者來(lái)說(shuō)，這項(xiàng)研究揭示了一個(gè)重要信息：真正的智能不僅僅是記憶和執(zhí)行，還包括根據(jù)新信息動(dòng)態(tài)調(diào)整策略的能力。就像人類在解決問(wèn)題時(shí)會(huì)不斷反思和調(diào)整一樣，未來(lái)的AI系統(tǒng)也將越來(lái)越擅長(zhǎng)這種自適應(yīng)推理，使它們?cè)诿鎸?duì)新挑戰(zhàn)時(shí)表現(xiàn)得更加靈活和高效。

人工智能強(qiáng)化學(xué)習(xí)大語(yǔ)言模型推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<cite id="khujj"><source id="khujj"></source></cite>