av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 清華大學(xué)聯(lián)合多校團(tuán)隊(duì)重磅發(fā)布:讓自動(dòng)駕駛汽車(chē)能看、能說(shuō)、還能開(kāi)——首份視覺(jué)-語(yǔ)言-行動(dòng)模型全景調(diào)研

清華大學(xué)聯(lián)合多校團(tuán)隊(duì)重磅發(fā)布:讓自動(dòng)駕駛汽車(chē)能看、能說(shuō)、還能開(kāi)——首份視覺(jué)-語(yǔ)言-行動(dòng)模型全景調(diào)研

2025-07-18 09:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-18 09:36 ? 科技行者

這項(xiàng)由清華大學(xué)、麥吉爾大學(xué)、威斯康星大學(xué)麥迪遜分校等多所國(guó)際知名院校聯(lián)合完成的開(kāi)創(chuàng)性研究,于2025年6月30日發(fā)表在計(jì)算機(jī)視覺(jué)頂級(jí)期刊arXiv上。該研究的通訊作者包括清華大學(xué)的江昆教授和麥吉爾大學(xué)的孫立軍教授,論文編號(hào)為arXiv:2506.24044v1。這份長(zhǎng)達(dá)19頁(yè)的綜合性調(diào)研報(bào)告,首次系統(tǒng)性地梳理了自動(dòng)駕駛領(lǐng)域一個(gè)全新的技術(shù)方向——視覺(jué)-語(yǔ)言-行動(dòng)模型(VLA4AD),為有興趣深入了解的讀者提供了完整的技術(shù)脈絡(luò)圖譜。

想象一下這樣的場(chǎng)景:你坐在一輛自動(dòng)駕駛汽車(chē)?yán)?,?duì)它說(shuō)"前面有救護(hù)車(chē),讓一讓",汽車(chē)不僅能聽(tīng)懂你的話,還能看到救護(hù)車(chē),并且立即做出合適的避讓動(dòng)作。這聽(tīng)起來(lái)像科幻電影情節(jié),但實(shí)際上正是當(dāng)前自動(dòng)駕駛技術(shù)發(fā)展的最前沿方向。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)就像一個(gè)只會(huì)按程序行事的機(jī)器人,雖然能識(shí)別紅綠燈、避開(kāi)障礙物,但遇到復(fù)雜情況時(shí)往往顯得"木訥"。而這項(xiàng)研究所關(guān)注的新技術(shù),則試圖讓汽車(chē)變得更像一個(gè)會(huì)思考、能交流的智能助手。

過(guò)去幾十年里,自動(dòng)駕駛技術(shù)的發(fā)展歷程就像搭積木一樣——工程師們把駕駛?cè)蝿?wù)分解成感知、預(yù)測(cè)、規(guī)劃、控制等不同模塊,每個(gè)模塊各司其職。這種方法雖然條理清晰,但也帶來(lái)了一個(gè)問(wèn)題:當(dāng)一個(gè)模塊出錯(cuò)時(shí),錯(cuò)誤會(huì)像多米諾骨牌一樣傳遞下去,最終導(dǎo)致整個(gè)系統(tǒng)失效。更重要的是,這種系統(tǒng)很難處理那些程序員事先沒(méi)有考慮到的特殊情況。

近年來(lái),隨著大型語(yǔ)言模型和視覺(jué)模型的爆發(fā)式發(fā)展,研究人員開(kāi)始探索一個(gè)全新的可能性:能否讓自動(dòng)駕駛汽車(chē)像人類(lèi)一樣,同時(shí)運(yùn)用視覺(jué)、語(yǔ)言和行動(dòng)能力來(lái)處理復(fù)雜的駕駛場(chǎng)景?這就是視覺(jué)-語(yǔ)言-行動(dòng)模型的核心理念。這種技術(shù)不再把駕駛?cè)蝿?wù)割裂成獨(dú)立的模塊,而是試圖在一個(gè)統(tǒng)一的框架內(nèi),讓汽車(chē)能夠看懂路況、理解指令、進(jìn)行推理,并直接做出駕駛決策。

研究團(tuán)隊(duì)通過(guò)深入調(diào)研發(fā)現(xiàn),這個(gè)領(lǐng)域的發(fā)展經(jīng)歷了四個(gè)清晰的階段,就像一個(gè)技術(shù)逐漸成熟的成長(zhǎng)過(guò)程。最初,語(yǔ)言模型只是充當(dāng)"解說(shuō)員"的角色,幫助解釋汽車(chē)為什么做出某個(gè)決策,但并不直接參與駕駛控制。后來(lái),語(yǔ)言開(kāi)始作為"中間翻譯",將感知到的信息轉(zhuǎn)換成可理解的計(jì)劃,再由其他模塊執(zhí)行。接下來(lái),整個(gè)系統(tǒng)變得更加一體化,從感知到?jīng)Q策的全過(guò)程都在一個(gè)模型內(nèi)完成。最近的發(fā)展則更進(jìn)一步,加入了長(zhǎng)期推理和記憶能力,讓汽車(chē)能夠處理更復(fù)雜的情況并提供詳細(xì)的解釋。

在技術(shù)架構(gòu)方面,這類(lèi)系統(tǒng)的設(shè)計(jì)原理可以比作一個(gè)超級(jí)智能的司機(jī)大腦。首先是"眼睛"——視覺(jué)編碼器,它不僅能處理普通的攝像頭畫(huà)面,還能整合激光雷達(dá)、雷達(dá)等多種傳感器信息,形成對(duì)周?chē)h(huán)境的立體理解。這就像人類(lèi)駕駛時(shí)不僅用眼睛看,還會(huì)用耳朵聽(tīng)、用身體感受車(chē)輛的運(yùn)動(dòng)狀態(tài)。其次是"大腦"——語(yǔ)言處理器,它基于預(yù)訓(xùn)練的大型語(yǔ)言模型,能夠理解各種形式的指令和查詢(xún),從簡(jiǎn)單的"左轉(zhuǎn)"到復(fù)雜的"在確保安全的前提下超越前車(chē)"都能處理。最后是"手腳"——行動(dòng)解碼器,它將前面兩個(gè)部分的輸出轉(zhuǎn)換成具體的駕駛動(dòng)作,可以是精確的方向盤(pán)轉(zhuǎn)角和油門(mén)剎車(chē)控制,也可以是更高層次的軌跡規(guī)劃。

這種技術(shù)的輸出方式也很有趣,不再局限于簡(jiǎn)單的控制信號(hào)。有些系統(tǒng)會(huì)輸出詳細(xì)的駕駛軌跡,告訴執(zhí)行模塊應(yīng)該如何移動(dòng);有些則直接輸出底層控制指令,如方向盤(pán)轉(zhuǎn)角和踏板力度;還有一些更高級(jí)的系統(tǒng)能夠同時(shí)輸出駕駛動(dòng)作和自然語(yǔ)言解釋?zhuān)尦丝土私馄?chē)的"思考過(guò)程"。

當(dāng)然,這個(gè)領(lǐng)域的發(fā)展并非一帆風(fēng)順。早期的嘗試主要集中在讓語(yǔ)言模型扮演"旁觀者"角色,類(lèi)似于一個(gè)坐在副駕駛座上的陪練教練,能夠觀察和評(píng)價(jià)駕駛行為,但不直接操控車(chē)輛。比如DriveGPT-4這樣的系統(tǒng),能夠看一張路況照片,然后用文字描述應(yīng)該采取什么行動(dòng),但這種描述往往比較模糊,難以轉(zhuǎn)換成精確的控制指令。更重要的是,處理每一幀圖像都需要大量計(jì)算,導(dǎo)致系統(tǒng)響應(yīng)緩慢,無(wú)法滿足實(shí)時(shí)駕駛的需求。

隨著技術(shù)的進(jìn)步,研究人員開(kāi)始嘗試模塊化的方法。這個(gè)階段的系統(tǒng)更像是一個(gè)有組織的團(tuán)隊(duì),語(yǔ)言不再只是旁觀者,而是成為團(tuán)隊(duì)中的重要一員。例如,OpenDriveVLA系統(tǒng)能夠接收"在教堂右轉(zhuǎn)"這樣的路線指令,然后生成"20米后右轉(zhuǎn),然后直行"這樣的中間指令,最后由專(zhuān)門(mén)的軌跡生成器將其轉(zhuǎn)換成具體的行駛路徑。這種方法大大提高了系統(tǒng)的可解釋性和靈活性,但仍然存在模塊間信息傳遞損失的問(wèn)題。

真正的突破出現(xiàn)在端到端統(tǒng)一模型的發(fā)展階段。這類(lèi)系統(tǒng)就像一個(gè)天才司機(jī),能夠直接從原始的傳感器數(shù)據(jù)跳躍到最終的駕駛動(dòng)作,中間的推理過(guò)程完全在模型內(nèi)部完成。EMMA系統(tǒng)是這個(gè)階段的代表作,它在Waymo的大規(guī)模駕駛數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠同時(shí)處理目標(biāo)檢測(cè)和運(yùn)動(dòng)規(guī)劃任務(wù),在閉環(huán)測(cè)試中展現(xiàn)出比傳統(tǒng)分離式系統(tǒng)更好的性能。SimLingo和CarLLaVA等系統(tǒng)則進(jìn)一步引入了"動(dòng)作想象"技術(shù),讓模型能夠在腦海中預(yù)演不同駕駛策略的后果,從而選擇最優(yōu)的行動(dòng)方案。

最新的發(fā)展趨勢(shì)是推理增強(qiáng)型系統(tǒng),這類(lèi)系統(tǒng)不僅能夠駕駛,還具備了類(lèi)似人類(lèi)的推理和記憶能力。ORION系統(tǒng)配備了一個(gè)"記憶銀行",能夠存儲(chǔ)幾分鐘的觀察和行動(dòng)歷史,并由語(yǔ)言模型對(duì)這些信息進(jìn)行總結(jié)和分析,生成下一步的行動(dòng)計(jì)劃。Impromptu VLA系統(tǒng)則專(zhuān)門(mén)針對(duì)極端情況進(jìn)行訓(xùn)練,能夠在遇到前所未見(jiàn)的復(fù)雜場(chǎng)景時(shí)進(jìn)行鏈?zhǔn)酵评?,并給出詳細(xì)的行動(dòng)解釋。AutoVLA更是將這種推理能力與軌跡規(guī)劃完美結(jié)合,在多個(gè)基準(zhǔn)測(cè)試中都取得了最佳成績(jī)。

為了支撐這些技術(shù)的發(fā)展,研究社區(qū)構(gòu)建了豐富的數(shù)據(jù)集和評(píng)估體系。BDD-X數(shù)據(jù)集提供了帶有人類(lèi)解釋的真實(shí)駕駛場(chǎng)景,成為訓(xùn)練可解釋AI系統(tǒng)的重要資源。nuScenes數(shù)據(jù)集雖然最初專(zhuān)注于感知任務(wù),但其豐富的多傳感器數(shù)據(jù)使其成為VLA系統(tǒng)的重要測(cè)試平臺(tái)。Bench2Drive則提供了專(zhuān)門(mén)的閉環(huán)測(cè)試環(huán)境,包含44種不同的駕駛場(chǎng)景,能夠全面評(píng)估系統(tǒng)的駕駛能力。Impromptu VLA數(shù)據(jù)集專(zhuān)門(mén)收集了8萬(wàn)個(gè)極端駕駛場(chǎng)景,每個(gè)場(chǎng)景都配有詳細(xì)的推理鏈條和時(shí)間戳標(biāo)注,為訓(xùn)練能夠處理罕見(jiàn)情況的AI系統(tǒng)提供了寶貴資源。

在訓(xùn)練方法方面,當(dāng)前主流的做法是采用多階段漸進(jìn)式訓(xùn)練。這個(gè)過(guò)程就像培養(yǎng)一個(gè)司機(jī)新手,需要循序漸進(jìn)。首先是預(yù)訓(xùn)練階段,在大規(guī)模的圖像-文本數(shù)據(jù)上訓(xùn)練視覺(jué)編碼器和語(yǔ)言模型,建立基礎(chǔ)的視覺(jué)-語(yǔ)言理解能力。然后是模態(tài)對(duì)齊階段,使用配對(duì)的圖像-文本-動(dòng)作數(shù)據(jù)進(jìn)行微調(diào),讓模型學(xué)會(huì)將視覺(jué)信息、語(yǔ)言指令和駕駛動(dòng)作關(guān)聯(lián)起來(lái)。接下來(lái)是場(chǎng)景特化階段,在特定的駕駛場(chǎng)景和指令上進(jìn)行針對(duì)性訓(xùn)練,并可能加入強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化安全性和規(guī)則遵循。最后是模型壓縮階段,通過(guò)參數(shù)高效的方法如LoRA適配器、專(zhuān)家混合路由或知識(shí)蒸餾來(lái)減少計(jì)算需求,使模型能夠在車(chē)載硬件上實(shí)時(shí)運(yùn)行。

評(píng)估這類(lèi)系統(tǒng)的挑戰(zhàn)在于需要同時(shí)考慮駕駛能力和語(yǔ)言能力兩個(gè)維度。在駕駛方面,研究人員關(guān)注閉環(huán)成功率、交通違規(guī)次數(shù)、碰撞率等傳統(tǒng)指標(biāo),同時(shí)也測(cè)試系統(tǒng)在惡劣天氣、未見(jiàn)過(guò)的路況等情況下的泛化能力。在語(yǔ)言方面,則需要評(píng)估指令理解的準(zhǔn)確性、解釋的合理性、多輪對(duì)話的一致性等。更重要的是,還需要評(píng)估兩種能力的耦合程度——系統(tǒng)是否真正理解了語(yǔ)言指令的含義,而不是簡(jiǎn)單地基于關(guān)鍵詞做出反應(yīng)。

盡管取得了顯著進(jìn)展,但這個(gè)領(lǐng)域仍面臨諸多挑戰(zhàn)。首要問(wèn)題是魯棒性和可靠性。語(yǔ)言模型雖然強(qiáng)大,但有時(shí)會(huì)產(chǎn)生"幻覺(jué)",可能錯(cuò)誤地感知不存在的危險(xiǎn)或誤解俚語(yǔ)表達(dá)。比如當(dāng)有人說(shuō)"踩油門(mén)"時(shí),系統(tǒng)需要理解這是加速的意思,而不是真的要踩什么東西。實(shí)時(shí)性能也是一個(gè)關(guān)鍵挑戰(zhàn),在30Hz的控制頻率下運(yùn)行包含數(shù)十億參數(shù)的模型對(duì)計(jì)算硬件提出了極高要求。

數(shù)據(jù)標(biāo)注瓶頸是另一個(gè)重要制約因素。訓(xùn)練這類(lèi)系統(tǒng)需要大量的圖像-控制-語(yǔ)言三元組數(shù)據(jù),而這種數(shù)據(jù)的收集和標(biāo)注成本極高。雖然合成數(shù)據(jù)可以在一定程度上緩解這個(gè)問(wèn)題,但在覆蓋非英語(yǔ)方言、地區(qū)性交通習(xí)慣、法律術(shù)語(yǔ)等方面仍然存在不足。

多模態(tài)融合仍然是一個(gè)技術(shù)難點(diǎn)。當(dāng)前的工作主要集中在攝像頭數(shù)據(jù)上,激光雷達(dá)、雷達(dá)、高精地圖等信息的融合程度有限。如何在保持系統(tǒng)復(fù)雜度可控的同時(shí),有效整合這些異構(gòu)數(shù)據(jù)源,仍需要更多探索。

多智能體協(xié)調(diào)也帶來(lái)了新的挑戰(zhàn)。當(dāng)多輛配備VLA系統(tǒng)的車(chē)輛需要協(xié)調(diào)行動(dòng)時(shí),如何設(shè)計(jì)安全、高效、防篡改的通信協(xié)議成為關(guān)鍵問(wèn)題。系統(tǒng)需要能夠驗(yàn)證其他車(chē)輛發(fā)送信息的真實(shí)性,同時(shí)對(duì)惡意攻擊保持魯棒性。

展望未來(lái),研究人員認(rèn)為這個(gè)領(lǐng)域有幾個(gè)重要的發(fā)展方向。首先是構(gòu)建專(zhuān)門(mén)針對(duì)駕駛?cè)蝿?wù)的基礎(chǔ)模型,類(lèi)似于通用語(yǔ)言模型GPT,但專(zhuān)門(mén)針對(duì)多傳感器駕駛數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,然后通過(guò)少量數(shù)據(jù)就能適應(yīng)各種下游任務(wù)。神經(jīng)符號(hào)安全內(nèi)核的發(fā)展也很有前景,通過(guò)讓神經(jīng)網(wǎng)絡(luò)輸出結(jié)構(gòu)化的行動(dòng)程序,再由符號(hào)驗(yàn)證器執(zhí)行,可以在保持靈活性的同時(shí)提供安全保障。

車(chē)隊(duì)級(jí)持續(xù)學(xué)習(xí)是另一個(gè)有趣的方向。deployed的車(chē)輛可以將遇到的新情況以簡(jiǎn)潔的語(yǔ)言片段形式上傳到云端,形成全車(chē)隊(duì)共享的知識(shí)庫(kù),實(shí)現(xiàn)快速的增量學(xué)習(xí)。標(biāo)準(zhǔn)化的交通語(yǔ)言也是必要的發(fā)展方向,類(lèi)似于航空業(yè)的標(biāo)準(zhǔn)通信用語(yǔ),需要設(shè)計(jì)一套受限但精確的消息集合來(lái)支持車(chē)輛間的協(xié)調(diào)。

跨模態(tài)社交智能將進(jìn)一步擴(kuò)展系統(tǒng)的能力邊界。未來(lái)的系統(tǒng)不僅要處理語(yǔ)言指令,還需要理解手勢(shì)、表情、路牌等多種信息源,并能夠通過(guò)燈光、顯示屏、喇叭等多種方式與人類(lèi)進(jìn)行交互。檢索增強(qiáng)規(guī)劃也展現(xiàn)出巨大潛力,通過(guò)實(shí)時(shí)檢索相似的歷史駕駛案例來(lái)指導(dǎo)當(dāng)前決策,可以顯著提高系統(tǒng)處理長(zhǎng)尾事件的能力。

這項(xiàng)綜合性調(diào)研不僅梳理了當(dāng)前的技術(shù)現(xiàn)狀,更重要的是為未來(lái)的研究指明了方向。研究團(tuán)隊(duì)強(qiáng)調(diào),要實(shí)現(xiàn)真正安全、透明、全球部署的VLA4AD系統(tǒng),需要在可擴(kuò)展訓(xùn)練、形式化安全分析、人機(jī)交互、標(biāo)準(zhǔn)化評(píng)估等多個(gè)方面取得突破。他們呼吁建立統(tǒng)一的評(píng)估協(xié)議和開(kāi)源工具包,促進(jìn)不同研究團(tuán)隊(duì)間的合作和比較。

這項(xiàng)研究的意義不僅在于技術(shù)層面的貢獻(xiàn),更在于它為自動(dòng)駕駛的未來(lái)發(fā)展提供了一個(gè)全新的視角。與其簡(jiǎn)單地讓機(jī)器模仿人類(lèi)的駕駛行為,不如讓機(jī)器具備理解、推理和交流的能力,成為真正的駕駛伙伴。這種技術(shù)路線的成功,將徹底改變我們對(duì)自動(dòng)駕駛汽車(chē)的認(rèn)知,從一個(gè)精密的自動(dòng)化工具變成一個(gè)可以理解、可以溝通、可以解釋自己行為的智能伙伴。

說(shuō)到底,這項(xiàng)研究所描繪的未來(lái)并不遙遠(yuǎn)。隨著計(jì)算能力的提升、數(shù)據(jù)的積累和算法的改進(jìn),我們很可能在不久的將來(lái)就能體驗(yàn)到這種會(huì)說(shuō)話、能推理的智能汽車(chē)。當(dāng)然,這個(gè)過(guò)程中還有許多技術(shù)和社會(huì)挑戰(zhàn)需要解決,但正如研究團(tuán)隊(duì)所指出的,這條道路的方向是明確的,前景是光明的。對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)的出行將變得更加安全、舒適和智能,我們與汽車(chē)的關(guān)系也將從簡(jiǎn)單的工具使用轉(zhuǎn)變?yōu)楦幼匀坏娜藱C(jī)協(xié)作。

Q&A

Q1:VLA4AD是什么意思?它與傳統(tǒng)自動(dòng)駕駛有什么不同? A:VLA4AD是"視覺(jué)-語(yǔ)言-行動(dòng)模型用于自動(dòng)駕駛"的縮寫(xiě)。與傳統(tǒng)自動(dòng)駕駛相比,它最大的特點(diǎn)是能夠同時(shí)處理視覺(jué)信息、理解語(yǔ)言指令并做出駕駛決策,就像給汽車(chē)裝上了"眼睛"、"大腦"和"嘴巴",能看能聽(tīng)能說(shuō)還能開(kāi),而不是像傳統(tǒng)系統(tǒng)那樣只能按程序執(zhí)行預(yù)設(shè)動(dòng)作。

Q2:這種技術(shù)什么時(shí)候能在普通汽車(chē)上使用? A:目前這項(xiàng)技術(shù)還處于研究階段,主要在實(shí)驗(yàn)室和仿真環(huán)境中測(cè)試。雖然已有一些原型系統(tǒng)展現(xiàn)出良好效果,但要在普通汽車(chē)上大規(guī)模應(yīng)用,還需要解決計(jì)算效率、安全驗(yàn)證、成本控制等問(wèn)題,預(yù)計(jì)還需要幾年時(shí)間才能進(jìn)入商用階段。

Q3:VLA4AD系統(tǒng)安全嗎?會(huì)不會(huì)因?yàn)?理解錯(cuò)誤"造成事故? A:安全性確實(shí)是最大的挑戰(zhàn)之一。系統(tǒng)可能會(huì)產(chǎn)生"幻覺(jué)"或誤解指令,這正是研究人員重點(diǎn)關(guān)注的問(wèn)題。目前的解決方案包括加入符號(hào)邏輯驗(yàn)證、多重安全檢查、漸進(jìn)式部署等措施。未來(lái)的系統(tǒng)會(huì)更像有經(jīng)驗(yàn)的司機(jī),不僅會(huì)開(kāi)車(chē),還會(huì)主動(dòng)識(shí)別和避免潛在風(fēng)險(xiǎn)。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-