av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

騰訊和武漢大學(xué)研發(fā)的"思維型AI智能體"：會(huì)思考、會(huì)推理、像人類一樣學(xué)習(xí)游戲

人工智能強(qiáng)化學(xué)習(xí)可解釋AI

騰訊和武漢大學(xué)研發(fā)的"思維型AI智能體"：會(huì)思考、會(huì)推理、像人類一樣學(xué)習(xí)游戲

作者：科技行者

2025-10-22 09:11

分享至：

這項(xiàng)由騰訊與武漢大學(xué)合作的研究開發(fā)了一種革命性的AI智能體CEL，它能像人類一樣從零開始學(xué)習(xí)游戲規(guī)則并制定策略。與傳統(tǒng)需要大量數(shù)據(jù)訓(xùn)練的"黑箱"AI不同，CEL通過觀察、思考和反思的方式自主學(xué)習(xí)，整個(gè)決策過程完全透明。在掃雷、冰湖導(dǎo)航和推箱子三種游戲測(cè)試中，CEL都表現(xiàn)出色，甚至超越了預(yù)先知道規(guī)則的傳統(tǒng)AI。這種"會(huì)思考的AI"為未來(lái)可解釋人工智能的發(fā)展指明了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-22 09:11 ? 科技行者

這項(xiàng)由騰訊公司與武漢大學(xué)合作開展的突破性研究發(fā)表于2025年9月，論文編號(hào)為arXiv:2509.25052v1，研究團(tuán)隊(duì)由騰訊的王賽、徐中文以及武漢大學(xué)的吳宇領(lǐng)導(dǎo)。有興趣深入了解的讀者可以通過該論文編號(hào)查詢完整論文。

想象一下這樣的場(chǎng)景：當(dāng)你第一次接觸一款全新的游戲時(shí)，你不會(huì)立即知道所有規(guī)則，而是通過試玩、觀察和思考逐漸理解游戲機(jī)制，然后制定策略來(lái)獲勝?，F(xiàn)在，研究人員成功創(chuàng)造了一個(gè)能夠像人類一樣學(xué)習(xí)和思考的AI智能體，它不是通過死記硬背大量游戲數(shù)據(jù)來(lái)獲勝，而是真正理解游戲規(guī)則并制定策略。

這個(gè)被稱為"Cogito, ergo ludo"（我思故我玩）的AI智能體，簡(jiǎn)稱CEL，代表了人工智能領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。傳統(tǒng)的AI就像一個(gè)記憶超強(qiáng)但不會(huì)思考的機(jī)器人，它需要觀看數(shù)百萬(wàn)次游戲錄像才能學(xué)會(huì)玩游戲，而且你永遠(yuǎn)不知道它為什么做出某個(gè)決定。相比之下，CEL更像一個(gè)聰明的人類學(xué)習(xí)者，它能夠觀察、思考、總結(jié)規(guī)律，并且能夠清楚地告訴你它的想法過程。

一、革命性的學(xué)習(xí)方式：從"記憶型"到"思維型"

傳統(tǒng)的AI學(xué)習(xí)游戲就像一個(gè)只會(huì)死記硬背的學(xué)生。比如要讓AI學(xué)會(huì)下棋，工程師需要讓它觀看成千上萬(wàn)局棋譜，通過不斷調(diào)整內(nèi)部參數(shù)來(lái)提高勝率。這個(gè)過程就像訓(xùn)練一只海豚表演，通過大量重復(fù)練習(xí)形成條件反射，但海豚并不真正理解表演的邏輯。

更讓人困擾的是，傳統(tǒng)AI的決策過程完全是個(gè)"黑箱"。就像你問一個(gè)只會(huì)背答案的學(xué)生為什么選擇這個(gè)答案，他只能告訴你"因?yàn)槲冶尺^這道題"，卻說(shuō)不出邏輯推理過程。這種不透明性讓人很難信任AI的決定，特別是在醫(yī)療診斷或自動(dòng)駕駛等關(guān)鍵領(lǐng)域。

CEL智能體采用了完全不同的學(xué)習(xí)策略。它就像一個(gè)善于觀察和思考的人類學(xué)習(xí)者，面對(duì)一個(gè)全新游戲時(shí)，會(huì)經(jīng)歷兩個(gè)重要階段：游戲中的決策階段和游戲后的反思階段。

在游戲過程中，CEL會(huì)像經(jīng)驗(yàn)豐富的棋手一樣進(jìn)行前瞻性思考。它會(huì)評(píng)估當(dāng)前局面的價(jià)值，預(yù)測(cè)每個(gè)可能行動(dòng)的后果，然后選擇最有利的策略。這個(gè)過程完全透明，你可以看到它的每一步思考邏輯。

游戲結(jié)束后，CEL會(huì)進(jìn)入深度反思模式，就像一個(gè)認(rèn)真的學(xué)生會(huì)在考試后總結(jié)經(jīng)驗(yàn)教訓(xùn)。它會(huì)回顧整個(gè)游戲過程，分析哪些決策是正確的，哪些是錯(cuò)誤的，然后更新自己對(duì)游戲規(guī)則的理解和戰(zhàn)略指南。這種"邊玩邊學(xué)邊思考"的方式讓CEL能夠快速掌握新游戲的精髓。

二、智能體的"大腦結(jié)構(gòu)"：四個(gè)核心組件協(xié)同工作

CEL智能體的內(nèi)部結(jié)構(gòu)可以比作一個(gè)高效運(yùn)轉(zhuǎn)的智囊團(tuán)，由四個(gè)專門的"專家"組成，每個(gè)專家都有自己的專長(zhǎng)，但彼此密切合作。

第一個(gè)專家是"規(guī)則理解專家"，它的任務(wù)是通過觀察游戲過程來(lái)推斷游戲的基本規(guī)則。就像一個(gè)聰明的孩子第一次看別人下棋，雖然不知道具體規(guī)則，但通過觀察棋子的移動(dòng)模式、勝負(fù)判定等，逐漸理解象棋的基本機(jī)制。這個(gè)專家會(huì)將觀察到的規(guī)律整理成一套清晰的規(guī)則說(shuō)明書，用人類能夠理解的自然語(yǔ)言表達(dá)。

第二個(gè)專家是"世界模型預(yù)測(cè)師"，它負(fù)責(zé)預(yù)測(cè)行動(dòng)的后果。當(dāng)CEL考慮下一步行動(dòng)時(shí)，這個(gè)專家會(huì)根據(jù)已知的游戲規(guī)則，預(yù)測(cè)每個(gè)可能行動(dòng)會(huì)導(dǎo)致什么結(jié)果。這就像一個(gè)象棋高手在移動(dòng)棋子前，會(huì)在腦中模擬"如果我這樣走，對(duì)手可能會(huì)那樣應(yīng)對(duì)"的情況。

第三個(gè)專家是"價(jià)值評(píng)估師"，它的作用是判斷當(dāng)前局面的好壞。每當(dāng)CEL面臨一個(gè)新的游戲狀態(tài)時(shí)，這個(gè)專家會(huì)綜合考慮各種因素，給出一個(gè)整體評(píng)價(jià)："這個(gè)局面對(duì)我有利嗎？成功的可能性有多大？"這種評(píng)估幫助CEL做出更明智的決策。

第四個(gè)專家是"策略顧問"，它負(fù)責(zé)總結(jié)和制定游戲策略。通過分析成功和失敗的經(jīng)驗(yàn)，這個(gè)專家會(huì)不斷完善一套戰(zhàn)略指南，類似于一本不斷更新的"游戲攻略手冊(cè)"。這本手冊(cè)包含了各種實(shí)用技巧，比如"在掃雷游戲中，應(yīng)該優(yōu)先從角落開始"或"在推箱子游戲中，要避免把箱子推到死角"。

這四個(gè)專家的協(xié)作過程非常有趣。當(dāng)CEL需要做決策時(shí)，價(jià)值評(píng)估師首先分析當(dāng)前局面，世界模型預(yù)測(cè)師模擬各種可能的行動(dòng)結(jié)果，然后結(jié)合策略顧問的建議，選擇最優(yōu)的行動(dòng)方案。游戲結(jié)束后，規(guī)則理解專家和策略顧問會(huì)根據(jù)游戲經(jīng)驗(yàn)更新知識(shí)庫(kù)，為下一輪游戲做準(zhǔn)備。

三、實(shí)戰(zhàn)測(cè)試：三種不同類型游戲的挑戰(zhàn)

為了驗(yàn)證CEL智能體的學(xué)習(xí)能力，研究團(tuán)隊(duì)選擇了三種不同類型的經(jīng)典游戲進(jìn)行測(cè)試：掃雷、冰湖導(dǎo)航和推箱子。這三種游戲代表了不同的挑戰(zhàn)類型，就像給學(xué)生出三種不同風(fēng)格的考題來(lái)全面評(píng)估其能力。

掃雷游戲是一個(gè)典型的邏輯推理挑戰(zhàn)，就像數(shù)學(xué)證明題一樣需要嚴(yán)密的邏輯思維。在5×5的網(wǎng)格中隱藏著3顆地雷，玩家需要根據(jù)已揭開格子顯示的數(shù)字（表示周圍地雷數(shù)量）來(lái)推斷地雷位置。這需要AI具備強(qiáng)大的約束滿足和邏輯推理能力。

冰湖導(dǎo)航游戲考驗(yàn)的是路徑規(guī)劃能力，類似于在復(fù)雜地形中尋找最佳路線。AI需要在一個(gè)6×6的網(wǎng)格中，從起點(diǎn)到達(dá)終點(diǎn)，同時(shí)避開6個(gè)隨機(jī)分布的陷阱。這個(gè)游戲看似簡(jiǎn)單，但需要AI學(xué)會(huì)空間推理和路徑優(yōu)化。

推箱子游戲則是一個(gè)復(fù)雜的序列規(guī)劃問題，就像解決一個(gè)多步驟的工程項(xiàng)目。在6×6的網(wǎng)格中，AI需要推動(dòng)箱子到指定目標(biāo)位置，但箱子只能推不能拉，而且不能推到墻角造成死鎖。這需要AI具備前瞻性規(guī)劃和避免陷阱的能力。

特別值得注意的是，研究團(tuán)隊(duì)故意增加了挑戰(zhàn)難度：CEL智能體在開始時(shí)完全不知道游戲規(guī)則，只知道可以執(zhí)行的基本操作。而且，它只有在游戲完全結(jié)束時(shí)才能獲得反饋（成功或失?。?，這就像讓一個(gè)人在完全黑暗中摸索前進(jìn)，只有在最后才能知道是否走對(duì)了路。

四、令人驚艷的學(xué)習(xí)成果

CEL智能體的表現(xiàn)確實(shí)令人印象深刻，它在三種游戲中都展現(xiàn)出了真正的學(xué)習(xí)能力。在掃雷游戲中，CEL從完全不懂規(guī)則開始，通過不斷的游戲和反思，最終達(dá)到了54%的成功率。更有趣的是，這個(gè)成績(jī)竟然超過了一個(gè)事先被告知完整游戲規(guī)則的baseline AI（成功率只有26%），這說(shuō)明通過自主學(xué)習(xí)獲得的理解可能比直接灌輸?shù)闹R(shí)更有效。

在冰湖導(dǎo)航游戲中，CEL展現(xiàn)出了驚人的學(xué)習(xí)速度。它在短短10個(gè)游戲回合內(nèi)就達(dá)到了近乎完美的97%成功率，這種快速適應(yīng)能力讓人聯(lián)想到人類在簡(jiǎn)單任務(wù)上的學(xué)習(xí)曲線。

推箱子游戲的結(jié)果最能體現(xiàn)CEL的深度學(xué)習(xí)能力。這個(gè)游戲需要復(fù)雜的序列規(guī)劃，CEL的表現(xiàn)呈現(xiàn)出明顯的"突破模式"——在經(jīng)歷了一段探索期后，成功率突然大幅提升到84%。這種學(xué)習(xí)模式很像人類在掌握復(fù)雜技能時(shí)經(jīng)常出現(xiàn)的"頓悟時(shí)刻"。

為了驗(yàn)證學(xué)習(xí)的真實(shí)性，研究團(tuán)隊(duì)進(jìn)行了嚴(yán)格的對(duì)照實(shí)驗(yàn)。他們發(fā)現(xiàn)，如果去掉CEL的規(guī)則學(xué)習(xí)功能，讓它無(wú)法從經(jīng)驗(yàn)中總結(jié)規(guī)律，那么學(xué)習(xí)效果會(huì)急劇下降。這證明了自主規(guī)則發(fā)現(xiàn)確實(shí)是CEL成功的關(guān)鍵因素。

更令人興趣的是CEL的泛化能力。當(dāng)研究人員讓一個(gè)在掃雷游戲中訓(xùn)練的CEL去玩冰湖導(dǎo)航游戲時(shí)，它雖然不知道新游戲的具體規(guī)則，但仍然能夠快速學(xué)會(huì)并取得不錯(cuò)的成績(jī)。這說(shuō)明CEL學(xué)到的不僅僅是具體的游戲技巧，而是一套通用的"如何學(xué)習(xí)新游戲"的元技能。

五、透明的思維過程：看得見的AI決策

CEL最吸引人的特點(diǎn)之一是它的決策過程完全透明。當(dāng)CEL玩掃雷游戲時(shí)，你可以清楚地看到它的思考過程。比如，面對(duì)一個(gè)復(fù)雜的掃雷局面，CEL會(huì)首先評(píng)估當(dāng)前狀態(tài)："這個(gè)狀態(tài)具有很高的戰(zhàn)略價(jià)值，因?yàn)橹皇Ｏ乱粋€(gè)安全格子需要揭開。"

然后，CEL會(huì)逐一分析每個(gè)可能的行動(dòng)。對(duì)于位置(0,3)，它會(huì)推理："這個(gè)格子目前未揭開且是安全的（根據(jù)約束條件推斷：相鄰(1,2)=1和(1,3)=2，只需要在(0,2)和(0,3)中有一個(gè)地雷，但(0,2)已經(jīng)是地雷，所以(0,3)必須是安全的）。揭開(0,3)將顯示一個(gè)安全格子，不會(huì)觸發(fā)失敗。這將完成安全區(qū)域，只留下已知地雷未揭開。游戲現(xiàn)在處于終端狀態(tài)，所有安全格子都已揭開且沒有地雷暴露——因此獲勝。"

對(duì)于其他位置，CEL會(huì)給出相應(yīng)的風(fēng)險(xiǎn)分析，比如對(duì)位置(0,2)："這個(gè)格子與(1,1)=1相鄰，是唯一未揭開的鄰居。由于(1,1)=1恰好需要一個(gè)地雷，而(0,2)是唯一可能的相鄰格子，所以它必須是地雷。揭開它會(huì)暴露地雷→立即失敗。"

這種詳細(xì)的推理過程讓人們能夠理解AI的每一個(gè)決策，就像看到一個(gè)專家棋手的思考過程一樣。這種透明性對(duì)于建立人類對(duì)AI的信任至關(guān)重要。

CEL生成的游戲規(guī)則手冊(cè)也同樣詳細(xì)和準(zhǔn)確。以掃雷游戲?yàn)槔?，CEL能夠自主總結(jié)出完整的游戲機(jī)制："'.'表示未揭開的格子（未知內(nèi)容；可能包含地雷或安全），'0'表示已揭開的安全格子（無(wú)相鄰地雷），'n'（n>0）表示已揭開的格子，恰好有'n'個(gè)相鄰地雷（包括對(duì)角線），'*'表示包含地雷的已揭開格子（游戲結(jié)束條件）。"

除了規(guī)則理解，CEL還能制定出實(shí)用的策略指南。它的掃雷策略包括"約束傳播"（使用數(shù)字線索推斷地雷位置）、"安全探索"（優(yōu)先選擇確定安全的格子）、"最大信息獲取"（選擇能提供最多信息的行動(dòng)）等高級(jí)策略，這些都是通過純粹的游戲經(jīng)驗(yàn)自主發(fā)現(xiàn)的。

六、技術(shù)創(chuàng)新的深層意義

CEL智能體的成功不僅僅是游戲AI的進(jìn)步，更代表了人工智能發(fā)展的一個(gè)重要轉(zhuǎn)折點(diǎn)。傳統(tǒng)的AI更像是一個(gè)強(qiáng)大的計(jì)算器，能夠處理海量數(shù)據(jù)并找到統(tǒng)計(jì)模式，但缺乏真正的理解和推理能力。CEL則更像是一個(gè)真正的學(xué)習(xí)者，它能夠觀察、思考、總結(jié)和應(yīng)用知識(shí)。

這種差異的重要性在于通用性和適應(yīng)性。傳統(tǒng)AI通常只能在特定領(lǐng)域表現(xiàn)優(yōu)秀，一旦環(huán)境發(fā)生變化就需要重新訓(xùn)練。比如，一個(gè)專門為國(guó)際象棋訓(xùn)練的AI無(wú)法直接應(yīng)用到圍棋上。但CEL展現(xiàn)出的跨游戲?qū)W習(xí)能力暗示著通用人工智能的可能性。

更重要的是，CEL的透明性解決了AI可解釋性這一關(guān)鍵問題。在醫(yī)療診斷、金融決策、法律判斷等重要領(lǐng)域，人們需要理解AI的決策依據(jù)。CEL提供了一種新的可能性：創(chuàng)造既強(qiáng)大又可理解的AI系統(tǒng)。

從技術(shù)實(shí)現(xiàn)角度來(lái)看，CEL巧妙地結(jié)合了大語(yǔ)言模型的推理能力和強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制。大語(yǔ)言模型提供了強(qiáng)大的語(yǔ)言理解和生成能力，使得AI能夠用自然語(yǔ)言進(jìn)行推理和知識(shí)表示。強(qiáng)化學(xué)習(xí)則提供了從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)制，讓AI能夠通過試錯(cuò)不斷改進(jìn)。

研究團(tuán)隊(duì)使用了先進(jìn)的GRPO（Generalized Reward Preference Optimization）技術(shù)來(lái)訓(xùn)練CEL的核心語(yǔ)言模型。這種技術(shù)能夠根據(jù)游戲結(jié)果的好壞來(lái)調(diào)整AI的推理模式，就像一個(gè)老師根據(jù)學(xué)生的表現(xiàn)來(lái)調(diào)整教學(xué)方法一樣。

七、面向未來(lái)的應(yīng)用前景

CEL智能體的成功為人工智能的未來(lái)應(yīng)用開辟了新的可能性。在教育領(lǐng)域，這種能夠自主學(xué)習(xí)和清晰解釋的AI可以成為個(gè)性化的學(xué)習(xí)助手，不僅能夠教授知識(shí)，還能夠展示學(xué)習(xí)過程，幫助學(xué)生理解如何思考和解決問題。

在科學(xué)研究中，CEL式的AI可能成為強(qiáng)大的研究助手。它能夠觀察實(shí)驗(yàn)數(shù)據(jù)，總結(jié)規(guī)律，提出假設(shè)，并清楚地解釋其推理過程。這種透明的AI科學(xué)家可能會(huì)加速科學(xué)發(fā)現(xiàn)的進(jìn)程。

在商業(yè)決策領(lǐng)域，CEL的透明決策能力具有巨大價(jià)值。企業(yè)管理者不僅需要AI提供決策建議，更需要理解這些建議的依據(jù)。CEL式的AI顧問可以提供詳細(xì)的推理過程，幫助人類做出更明智的決策。

當(dāng)然，這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)。目前的實(shí)驗(yàn)主要集中在相對(duì)簡(jiǎn)單的網(wǎng)格世界游戲上，現(xiàn)實(shí)世界的復(fù)雜性要大得多。如何將這種學(xué)習(xí)和推理能力擴(kuò)展到更復(fù)雜的現(xiàn)實(shí)場(chǎng)景，仍然是一個(gè)需要解決的問題。

此外，隨著AI系統(tǒng)變得更加智能和自主，如何確保其行為符合人類價(jià)值觀也變得越來(lái)越重要。CEL的透明性提供了一種監(jiān)督和控制AI行為的可能途徑，但這也需要進(jìn)一步的研究和開發(fā)。

說(shuō)到底，CEL智能體代表了人工智能發(fā)展的一個(gè)新方向：從單純的模式識(shí)別和數(shù)據(jù)擬合，轉(zhuǎn)向真正的理解、推理和學(xué)習(xí)。這種"會(huì)思考的AI"可能是通向通用人工智能的重要一步。雖然我們距離創(chuàng)造出真正像人類一樣智能的AI還有很長(zhǎng)的路要走，但CEL的成功讓我們看到了這種可能性的曙光。

對(duì)于普通人來(lái)說(shuō)，這項(xiàng)研究意味著未來(lái)的AI將更加可信、可理解、可控制。我們不再需要盲目信任一個(gè)"黑箱"系統(tǒng)的決定，而是可以看到AI的思考過程，就像與一個(gè)透明、理性的伙伴合作一樣。這種人機(jī)協(xié)作的新模式可能會(huì)深刻改變我們的工作和生活方式。

這項(xiàng)由騰訊公司與武漢大學(xué)合作完成的研究，不僅在技術(shù)上取得了突破，也為AI的未來(lái)發(fā)展指明了一個(gè)新的方向。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)arXiv:2509.25052v1查閱完整的研究報(bào)告。

Q&A

Q1：CEL智能體和傳統(tǒng)的游戲AI有什么本質(zhì)區(qū)別？

A：傳統(tǒng)游戲AI像一個(gè)只會(huì)死記硬背的機(jī)器，需要觀看大量游戲錄像才能學(xué)會(huì)，而且決策過程完全不透明。CEL智能體則像一個(gè)真正的學(xué)習(xí)者，它從零開始觀察游戲，自己推斷規(guī)則，制定策略，整個(gè)思考過程都是透明的，可以清楚地告訴你為什么這樣決策。

Q2：CEL智能體是如何自己學(xué)會(huì)游戲規(guī)則的？

A：CEL采用"邊玩邊學(xué)"的方式，每次游戲結(jié)束后會(huì)進(jìn)入反思階段，分析整個(gè)游戲過程，總結(jié)成功和失敗的經(jīng)驗(yàn)，然后更新自己對(duì)游戲規(guī)則的理解。就像人類學(xué)習(xí)新游戲一樣，通過觀察、試錯(cuò)、思考來(lái)逐漸掌握游戲機(jī)制，最終形成一套完整的規(guī)則手冊(cè)和策略指南。

Q3：這項(xiàng)技術(shù)能應(yīng)用到現(xiàn)實(shí)生活中的哪些領(lǐng)域？

A：CEL的透明決策能力在很多領(lǐng)域都有價(jià)值。在教育中可以作為個(gè)性化學(xué)習(xí)助手，在醫(yī)療診斷中可以提供可解釋的診斷建議，在商業(yè)決策中可以當(dāng)作透明的AI顧問。關(guān)鍵是人們不僅能得到AI的建議，還能理解AI的推理過程，這對(duì)建立信任很重要。

人工智能強(qiáng)化學(xué)習(xí)可解釋AI

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<code id="b0uyr"><source id="b0uyr"></source></code>

<thead id="b0uyr"></thead>

<dfn id="b0uyr"></dfn>