av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<legend id="luusx"><track id="luusx"></track></legend>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

清華大學(xué)聯(lián)合多校團(tuán)隊(duì)重磅發(fā)布：讓自動(dòng)駕駛汽車(chē)能看、能說(shuō)、還能開(kāi)——首份視覺(jué)-語(yǔ)言-行動(dòng)模型全景調(diào)研

自動(dòng)駕駛視覺(jué)-語(yǔ)言-行動(dòng)模型多模態(tài)AI

清華大學(xué)聯(lián)合多校團(tuán)隊(duì)重磅發(fā)布：讓自動(dòng)駕駛汽車(chē)能看、能說(shuō)、還能開(kāi)——首份視覺(jué)-語(yǔ)言-行動(dòng)模型全景調(diào)研

作者：科技行者

2025-07-18 09:36

分享至：

這是首份關(guān)于自動(dòng)駕駛領(lǐng)域視覺(jué)-語(yǔ)言-行動(dòng)模型的全景調(diào)研，由清華大學(xué)等多校團(tuán)隊(duì)完成。研究梳理了讓汽車(chē)能看、能說(shuō)、能開(kāi)的VLA4AD技術(shù)發(fā)展歷程，從早期語(yǔ)言解釋器到最新推理增強(qiáng)系統(tǒng)的四個(gè)階段，分析了20多個(gè)代表性模型，整理了相關(guān)數(shù)據(jù)集和評(píng)估方法，并指出了實(shí)時(shí)性能、安全驗(yàn)證、多模態(tài)融合等關(guān)鍵挑戰(zhàn)和未來(lái)發(fā)展方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-18 09:36 ? 科技行者

這項(xiàng)由清華大學(xué)、麥吉爾大學(xué)、威斯康星大學(xué)麥迪遜分校等多所國(guó)際知名院校聯(lián)合完成的開(kāi)創(chuàng)性研究，于2025年6月30日發(fā)表在計(jì)算機(jī)視覺(jué)頂級(jí)期刊arXiv上。該研究的通訊作者包括清華大學(xué)的江昆教授和麥吉爾大學(xué)的孫立軍教授，論文編號(hào)為arXiv:2506.24044v1。這份長(zhǎng)達(dá)19頁(yè)的綜合性調(diào)研報(bào)告，首次系統(tǒng)性地梳理了自動(dòng)駕駛領(lǐng)域一個(gè)全新的技術(shù)方向——視覺(jué)-語(yǔ)言-行動(dòng)模型（VLA4AD），為有興趣深入了解的讀者提供了完整的技術(shù)脈絡(luò)圖譜。

想象一下這樣的場(chǎng)景：你坐在一輛自動(dòng)駕駛汽車(chē)?yán)?，?duì)它說(shuō)"前面有救護(hù)車(chē)，讓一讓"，汽車(chē)不僅能聽(tīng)懂你的話，還能看到救護(hù)車(chē)，并且立即做出合適的避讓動(dòng)作。這聽(tīng)起來(lái)像科幻電影情節(jié)，但實(shí)際上正是當(dāng)前自動(dòng)駕駛技術(shù)發(fā)展的最前沿方向。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)就像一個(gè)只會(huì)按程序行事的機(jī)器人，雖然能識(shí)別紅綠燈、避開(kāi)障礙物，但遇到復(fù)雜情況時(shí)往往顯得"木訥"。而這項(xiàng)研究所關(guān)注的新技術(shù)，則試圖讓汽車(chē)變得更像一個(gè)會(huì)思考、能交流的智能助手。

過(guò)去幾十年里，自動(dòng)駕駛技術(shù)的發(fā)展歷程就像搭積木一樣——工程師們把駕駛?cè)蝿?wù)分解成感知、預(yù)測(cè)、規(guī)劃、控制等不同模塊，每個(gè)模塊各司其職。這種方法雖然條理清晰，但也帶來(lái)了一個(gè)問(wèn)題：當(dāng)一個(gè)模塊出錯(cuò)時(shí)，錯(cuò)誤會(huì)像多米諾骨牌一樣傳遞下去，最終導(dǎo)致整個(gè)系統(tǒng)失效。更重要的是，這種系統(tǒng)很難處理那些程序員事先沒(méi)有考慮到的特殊情況。

近年來(lái)，隨著大型語(yǔ)言模型和視覺(jué)模型的爆發(fā)式發(fā)展，研究人員開(kāi)始探索一個(gè)全新的可能性：能否讓自動(dòng)駕駛汽車(chē)像人類(lèi)一樣，同時(shí)運(yùn)用視覺(jué)、語(yǔ)言和行動(dòng)能力來(lái)處理復(fù)雜的駕駛場(chǎng)景？這就是視覺(jué)-語(yǔ)言-行動(dòng)模型的核心理念。這種技術(shù)不再把駕駛?cè)蝿?wù)割裂成獨(dú)立的模塊，而是試圖在一個(gè)統(tǒng)一的框架內(nèi)，讓汽車(chē)能夠看懂路況、理解指令、進(jìn)行推理，并直接做出駕駛決策。

研究團(tuán)隊(duì)通過(guò)深入調(diào)研發(fā)現(xiàn)，這個(gè)領(lǐng)域的發(fā)展經(jīng)歷了四個(gè)清晰的階段，就像一個(gè)技術(shù)逐漸成熟的成長(zhǎng)過(guò)程。最初，語(yǔ)言模型只是充當(dāng)"解說(shuō)員"的角色，幫助解釋汽車(chē)為什么做出某個(gè)決策，但并不直接參與駕駛控制。后來(lái)，語(yǔ)言開(kāi)始作為"中間翻譯"，將感知到的信息轉(zhuǎn)換成可理解的計(jì)劃，再由其他模塊執(zhí)行。接下來(lái)，整個(gè)系統(tǒng)變得更加一體化，從感知到?jīng)Q策的全過(guò)程都在一個(gè)模型內(nèi)完成。最近的發(fā)展則更進(jìn)一步，加入了長(zhǎng)期推理和記憶能力，讓汽車(chē)能夠處理更復(fù)雜的情況并提供詳細(xì)的解釋。

在技術(shù)架構(gòu)方面，這類(lèi)系統(tǒng)的設(shè)計(jì)原理可以比作一個(gè)超級(jí)智能的司機(jī)大腦。首先是"眼睛"——視覺(jué)編碼器，它不僅能處理普通的攝像頭畫(huà)面，還能整合激光雷達(dá)、雷達(dá)等多種傳感器信息，形成對(duì)周?chē)h(huán)境的立體理解。這就像人類(lèi)駕駛時(shí)不僅用眼睛看，還會(huì)用耳朵聽(tīng)、用身體感受車(chē)輛的運(yùn)動(dòng)狀態(tài)。其次是"大腦"——語(yǔ)言處理器，它基于預(yù)訓(xùn)練的大型語(yǔ)言模型，能夠理解各種形式的指令和查詢(xún)，從簡(jiǎn)單的"左轉(zhuǎn)"到復(fù)雜的"在確保安全的前提下超越前車(chē)"都能處理。最后是"手腳"——行動(dòng)解碼器，它將前面兩個(gè)部分的輸出轉(zhuǎn)換成具體的駕駛動(dòng)作，可以是精確的方向盤(pán)轉(zhuǎn)角和油門(mén)剎車(chē)控制，也可以是更高層次的軌跡規(guī)劃。

這種技術(shù)的輸出方式也很有趣，不再局限于簡(jiǎn)單的控制信號(hào)。有些系統(tǒng)會(huì)輸出詳細(xì)的駕駛軌跡，告訴執(zhí)行模塊應(yīng)該如何移動(dòng)；有些則直接輸出底層控制指令，如方向盤(pán)轉(zhuǎn)角和踏板力度；還有一些更高級(jí)的系統(tǒng)能夠同時(shí)輸出駕駛動(dòng)作和自然語(yǔ)言解釋?zhuān)尦丝土私馄?chē)的"思考過(guò)程"。

當(dāng)然，這個(gè)領(lǐng)域的發(fā)展并非一帆風(fēng)順。早期的嘗試主要集中在讓語(yǔ)言模型扮演"旁觀者"角色，類(lèi)似于一個(gè)坐在副駕駛座上的陪練教練，能夠觀察和評(píng)價(jià)駕駛行為，但不直接操控車(chē)輛。比如DriveGPT-4這樣的系統(tǒng)，能夠看一張路況照片，然后用文字描述應(yīng)該采取什么行動(dòng)，但這種描述往往比較模糊，難以轉(zhuǎn)換成精確的控制指令。更重要的是，處理每一幀圖像都需要大量計(jì)算，導(dǎo)致系統(tǒng)響應(yīng)緩慢，無(wú)法滿足實(shí)時(shí)駕駛的需求。

隨著技術(shù)的進(jìn)步，研究人員開(kāi)始嘗試模塊化的方法。這個(gè)階段的系統(tǒng)更像是一個(gè)有組織的團(tuán)隊(duì)，語(yǔ)言不再只是旁觀者，而是成為團(tuán)隊(duì)中的重要一員。例如，OpenDriveVLA系統(tǒng)能夠接收"在教堂右轉(zhuǎn)"這樣的路線指令，然后生成"20米后右轉(zhuǎn)，然后直行"這樣的中間指令，最后由專(zhuān)門(mén)的軌跡生成器將其轉(zhuǎn)換成具體的行駛路徑。這種方法大大提高了系統(tǒng)的可解釋性和靈活性，但仍然存在模塊間信息傳遞損失的問(wèn)題。

真正的突破出現(xiàn)在端到端統(tǒng)一模型的發(fā)展階段。這類(lèi)系統(tǒng)就像一個(gè)天才司機(jī)，能夠直接從原始的傳感器數(shù)據(jù)跳躍到最終的駕駛動(dòng)作，中間的推理過(guò)程完全在模型內(nèi)部完成。EMMA系統(tǒng)是這個(gè)階段的代表作，它在Waymo的大規(guī)模駕駛數(shù)據(jù)上進(jìn)行訓(xùn)練，能夠同時(shí)處理目標(biāo)檢測(cè)和運(yùn)動(dòng)規(guī)劃任務(wù)，在閉環(huán)測(cè)試中展現(xiàn)出比傳統(tǒng)分離式系統(tǒng)更好的性能。SimLingo和CarLLaVA等系統(tǒng)則進(jìn)一步引入了"動(dòng)作想象"技術(shù)，讓模型能夠在腦海中預(yù)演不同駕駛策略的后果，從而選擇最優(yōu)的行動(dòng)方案。

最新的發(fā)展趨勢(shì)是推理增強(qiáng)型系統(tǒng)，這類(lèi)系統(tǒng)不僅能夠駕駛，還具備了類(lèi)似人類(lèi)的推理和記憶能力。ORION系統(tǒng)配備了一個(gè)"記憶銀行"，能夠存儲(chǔ)幾分鐘的觀察和行動(dòng)歷史，并由語(yǔ)言模型對(duì)這些信息進(jìn)行總結(jié)和分析，生成下一步的行動(dòng)計(jì)劃。Impromptu VLA系統(tǒng)則專(zhuān)門(mén)針對(duì)極端情況進(jìn)行訓(xùn)練，能夠在遇到前所未見(jiàn)的復(fù)雜場(chǎng)景時(shí)進(jìn)行鏈?zhǔn)酵评?，并給出詳細(xì)的行動(dòng)解釋。AutoVLA更是將這種推理能力與軌跡規(guī)劃完美結(jié)合，在多個(gè)基準(zhǔn)測(cè)試中都取得了最佳成績(jī)。

為了支撐這些技術(shù)的發(fā)展，研究社區(qū)構(gòu)建了豐富的數(shù)據(jù)集和評(píng)估體系。BDD-X數(shù)據(jù)集提供了帶有人類(lèi)解釋的真實(shí)駕駛場(chǎng)景，成為訓(xùn)練可解釋AI系統(tǒng)的重要資源。nuScenes數(shù)據(jù)集雖然最初專(zhuān)注于感知任務(wù)，但其豐富的多傳感器數(shù)據(jù)使其成為VLA系統(tǒng)的重要測(cè)試平臺(tái)。Bench2Drive則提供了專(zhuān)門(mén)的閉環(huán)測(cè)試環(huán)境，包含44種不同的駕駛場(chǎng)景，能夠全面評(píng)估系統(tǒng)的駕駛能力。Impromptu VLA數(shù)據(jù)集專(zhuān)門(mén)收集了8萬(wàn)個(gè)極端駕駛場(chǎng)景，每個(gè)場(chǎng)景都配有詳細(xì)的推理鏈條和時(shí)間戳標(biāo)注，為訓(xùn)練能夠處理罕見(jiàn)情況的AI系統(tǒng)提供了寶貴資源。

在訓(xùn)練方法方面，當(dāng)前主流的做法是采用多階段漸進(jìn)式訓(xùn)練。這個(gè)過(guò)程就像培養(yǎng)一個(gè)司機(jī)新手，需要循序漸進(jìn)。首先是預(yù)訓(xùn)練階段，在大規(guī)模的圖像-文本數(shù)據(jù)上訓(xùn)練視覺(jué)編碼器和語(yǔ)言模型，建立基礎(chǔ)的視覺(jué)-語(yǔ)言理解能力。然后是模態(tài)對(duì)齊階段，使用配對(duì)的圖像-文本-動(dòng)作數(shù)據(jù)進(jìn)行微調(diào)，讓模型學(xué)會(huì)將視覺(jué)信息、語(yǔ)言指令和駕駛動(dòng)作關(guān)聯(lián)起來(lái)。接下來(lái)是場(chǎng)景特化階段，在特定的駕駛場(chǎng)景和指令上進(jìn)行針對(duì)性訓(xùn)練，并可能加入強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化安全性和規(guī)則遵循。最后是模型壓縮階段，通過(guò)參數(shù)高效的方法如LoRA適配器、專(zhuān)家混合路由或知識(shí)蒸餾來(lái)減少計(jì)算需求，使模型能夠在車(chē)載硬件上實(shí)時(shí)運(yùn)行。

評(píng)估這類(lèi)系統(tǒng)的挑戰(zhàn)在于需要同時(shí)考慮駕駛能力和語(yǔ)言能力兩個(gè)維度。在駕駛方面，研究人員關(guān)注閉環(huán)成功率、交通違規(guī)次數(shù)、碰撞率等傳統(tǒng)指標(biāo)，同時(shí)也測(cè)試系統(tǒng)在惡劣天氣、未見(jiàn)過(guò)的路況等情況下的泛化能力。在語(yǔ)言方面，則需要評(píng)估指令理解的準(zhǔn)確性、解釋的合理性、多輪對(duì)話的一致性等。更重要的是，還需要評(píng)估兩種能力的耦合程度——系統(tǒng)是否真正理解了語(yǔ)言指令的含義，而不是簡(jiǎn)單地基于關(guān)鍵詞做出反應(yīng)。

盡管取得了顯著進(jìn)展，但這個(gè)領(lǐng)域仍面臨諸多挑戰(zhàn)。首要問(wèn)題是魯棒性和可靠性。語(yǔ)言模型雖然強(qiáng)大，但有時(shí)會(huì)產(chǎn)生"幻覺(jué)"，可能錯(cuò)誤地感知不存在的危險(xiǎn)或誤解俚語(yǔ)表達(dá)。比如當(dāng)有人說(shuō)"踩油門(mén)"時(shí)，系統(tǒng)需要理解這是加速的意思，而不是真的要踩什么東西。實(shí)時(shí)性能也是一個(gè)關(guān)鍵挑戰(zhàn)，在30Hz的控制頻率下運(yùn)行包含數(shù)十億參數(shù)的模型對(duì)計(jì)算硬件提出了極高要求。

數(shù)據(jù)標(biāo)注瓶頸是另一個(gè)重要制約因素。訓(xùn)練這類(lèi)系統(tǒng)需要大量的圖像-控制-語(yǔ)言三元組數(shù)據(jù)，而這種數(shù)據(jù)的收集和標(biāo)注成本極高。雖然合成數(shù)據(jù)可以在一定程度上緩解這個(gè)問(wèn)題，但在覆蓋非英語(yǔ)方言、地區(qū)性交通習(xí)慣、法律術(shù)語(yǔ)等方面仍然存在不足。

多模態(tài)融合仍然是一個(gè)技術(shù)難點(diǎn)。當(dāng)前的工作主要集中在攝像頭數(shù)據(jù)上，激光雷達(dá)、雷達(dá)、高精地圖等信息的融合程度有限。如何在保持系統(tǒng)復(fù)雜度可控的同時(shí)，有效整合這些異構(gòu)數(shù)據(jù)源，仍需要更多探索。

多智能體協(xié)調(diào)也帶來(lái)了新的挑戰(zhàn)。當(dāng)多輛配備VLA系統(tǒng)的車(chē)輛需要協(xié)調(diào)行動(dòng)時(shí)，如何設(shè)計(jì)安全、高效、防篡改的通信協(xié)議成為關(guān)鍵問(wèn)題。系統(tǒng)需要能夠驗(yàn)證其他車(chē)輛發(fā)送信息的真實(shí)性，同時(shí)對(duì)惡意攻擊保持魯棒性。

展望未來(lái)，研究人員認(rèn)為這個(gè)領(lǐng)域有幾個(gè)重要的發(fā)展方向。首先是構(gòu)建專(zhuān)門(mén)針對(duì)駕駛?cè)蝿?wù)的基礎(chǔ)模型，類(lèi)似于通用語(yǔ)言模型GPT，但專(zhuān)門(mén)針對(duì)多傳感器駕駛數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練，然后通過(guò)少量數(shù)據(jù)就能適應(yīng)各種下游任務(wù)。神經(jīng)符號(hào)安全內(nèi)核的發(fā)展也很有前景，通過(guò)讓神經(jīng)網(wǎng)絡(luò)輸出結(jié)構(gòu)化的行動(dòng)程序，再由符號(hào)驗(yàn)證器執(zhí)行，可以在保持靈活性的同時(shí)提供安全保障。

車(chē)隊(duì)級(jí)持續(xù)學(xué)習(xí)是另一個(gè)有趣的方向。deployed的車(chē)輛可以將遇到的新情況以簡(jiǎn)潔的語(yǔ)言片段形式上傳到云端，形成全車(chē)隊(duì)共享的知識(shí)庫(kù)，實(shí)現(xiàn)快速的增量學(xué)習(xí)。標(biāo)準(zhǔn)化的交通語(yǔ)言也是必要的發(fā)展方向，類(lèi)似于航空業(yè)的標(biāo)準(zhǔn)通信用語(yǔ)，需要設(shè)計(jì)一套受限但精確的消息集合來(lái)支持車(chē)輛間的協(xié)調(diào)。

跨模態(tài)社交智能將進(jìn)一步擴(kuò)展系統(tǒng)的能力邊界。未來(lái)的系統(tǒng)不僅要處理語(yǔ)言指令，還需要理解手勢(shì)、表情、路牌等多種信息源，并能夠通過(guò)燈光、顯示屏、喇叭等多種方式與人類(lèi)進(jìn)行交互。檢索增強(qiáng)規(guī)劃也展現(xiàn)出巨大潛力，通過(guò)實(shí)時(shí)檢索相似的歷史駕駛案例來(lái)指導(dǎo)當(dāng)前決策，可以顯著提高系統(tǒng)處理長(zhǎng)尾事件的能力。

這項(xiàng)綜合性調(diào)研不僅梳理了當(dāng)前的技術(shù)現(xiàn)狀，更重要的是為未來(lái)的研究指明了方向。研究團(tuán)隊(duì)強(qiáng)調(diào)，要實(shí)現(xiàn)真正安全、透明、全球部署的VLA4AD系統(tǒng)，需要在可擴(kuò)展訓(xùn)練、形式化安全分析、人機(jī)交互、標(biāo)準(zhǔn)化評(píng)估等多個(gè)方面取得突破。他們呼吁建立統(tǒng)一的評(píng)估協(xié)議和開(kāi)源工具包，促進(jìn)不同研究團(tuán)隊(duì)間的合作和比較。

這項(xiàng)研究的意義不僅在于技術(shù)層面的貢獻(xiàn)，更在于它為自動(dòng)駕駛的未來(lái)發(fā)展提供了一個(gè)全新的視角。與其簡(jiǎn)單地讓機(jī)器模仿人類(lèi)的駕駛行為，不如讓機(jī)器具備理解、推理和交流的能力，成為真正的駕駛伙伴。這種技術(shù)路線的成功，將徹底改變我們對(duì)自動(dòng)駕駛汽車(chē)的認(rèn)知，從一個(gè)精密的自動(dòng)化工具變成一個(gè)可以理解、可以溝通、可以解釋自己行為的智能伙伴。

說(shuō)到底，這項(xiàng)研究所描繪的未來(lái)并不遙遠(yuǎn)。隨著計(jì)算能力的提升、數(shù)據(jù)的積累和算法的改進(jìn)，我們很可能在不久的將來(lái)就能體驗(yàn)到這種會(huì)說(shuō)話、能推理的智能汽車(chē)。當(dāng)然，這個(gè)過(guò)程中還有許多技術(shù)和社會(huì)挑戰(zhàn)需要解決，但正如研究團(tuán)隊(duì)所指出的，這條道路的方向是明確的，前景是光明的。對(duì)于普通人來(lái)說(shuō)，這意味著未來(lái)的出行將變得更加安全、舒適和智能，我們與汽車(chē)的關(guān)系也將從簡(jiǎn)單的工具使用轉(zhuǎn)變?yōu)楦幼匀坏娜藱C(jī)協(xié)作。

Q&A

Q1：VLA4AD是什么意思？它與傳統(tǒng)自動(dòng)駕駛有什么不同？ A：VLA4AD是"視覺(jué)-語(yǔ)言-行動(dòng)模型用于自動(dòng)駕駛"的縮寫(xiě)。與傳統(tǒng)自動(dòng)駕駛相比，它最大的特點(diǎn)是能夠同時(shí)處理視覺(jué)信息、理解語(yǔ)言指令并做出駕駛決策，就像給汽車(chē)裝上了"眼睛"、"大腦"和"嘴巴"，能看能聽(tīng)能說(shuō)還能開(kāi)，而不是像傳統(tǒng)系統(tǒng)那樣只能按程序執(zhí)行預(yù)設(shè)動(dòng)作。

Q2：這種技術(shù)什么時(shí)候能在普通汽車(chē)上使用？ A：目前這項(xiàng)技術(shù)還處于研究階段，主要在實(shí)驗(yàn)室和仿真環(huán)境中測(cè)試。雖然已有一些原型系統(tǒng)展現(xiàn)出良好效果，但要在普通汽車(chē)上大規(guī)模應(yīng)用，還需要解決計(jì)算效率、安全驗(yàn)證、成本控制等問(wèn)題，預(yù)計(jì)還需要幾年時(shí)間才能進(jìn)入商用階段。

Q3：VLA4AD系統(tǒng)安全嗎？會(huì)不會(huì)因?yàn)?理解錯(cuò)誤"造成事故？ A：安全性確實(shí)是最大的挑戰(zhàn)之一。系統(tǒng)可能會(huì)產(chǎn)生"幻覺(jué)"或誤解指令，這正是研究人員重點(diǎn)關(guān)注的問(wèn)題。目前的解決方案包括加入符號(hào)邏輯驗(yàn)證、多重安全檢查、漸進(jìn)式部署等措施。未來(lái)的系統(tǒng)會(huì)更像有經(jīng)驗(yàn)的司機(jī)，不僅會(huì)開(kāi)車(chē)，還會(huì)主動(dòng)識(shí)別和避免潛在風(fēng)險(xiǎn)。

自動(dòng)駕駛視覺(jué)-語(yǔ)言-行動(dòng)模型多模態(tài)AI

分享至

1贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專(zhuān)家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<center id="nx0dx"></center>