這項(xiàng)由NVIDIA和卡內(nèi)基梅隆大學(xué)聯(lián)合研究團(tuán)隊(duì)發(fā)表于2025年9月的開創(chuàng)性研究,首次將圖思維推理技術(shù)融入多車協(xié)作自動(dòng)駕駛系統(tǒng)。研究由NVIDIA的朱徐光、蜂間涼等學(xué)者與卡內(nèi)基梅隆大學(xué)的史密斯教授共同完成,相關(guān)論文編號為arXiv:2509.18053v3。這項(xiàng)研究解決了當(dāng)前自動(dòng)駕駛汽車的一個(gè)關(guān)鍵安全隱患:當(dāng)視線被大型車輛遮擋時(shí),單車很難察覺隱藏的危險(xiǎn)。
想象你在繁忙的城市道路上駕駛,前方有一輛巨大的貨車完全擋住了你的視線。在傳統(tǒng)的自動(dòng)駕駛系統(tǒng)中,你的車就像一個(gè)獨(dú)眼巨人,只能依靠自己的傳感器"眼睛"來觀察周圍環(huán)境。當(dāng)視線被遮擋時(shí),潛在的危險(xiǎn)可能就在盲區(qū)中悄然逼近。這就是現(xiàn)有自動(dòng)駕駛技術(shù)面臨的核心挑戰(zhàn)。
研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:讓多輛自動(dòng)駕駛汽車像一個(gè)協(xié)調(diào)有序的偵探團(tuán)隊(duì)一樣工作。每輛車都是這個(gè)團(tuán)隊(duì)中的一員,它們不僅用自己的"眼睛"觀察,還能分享彼此看到的信息。更重要的是,這個(gè)系統(tǒng)配備了一個(gè)強(qiáng)大的"大腦"——多模態(tài)大語言模型,它能像一位經(jīng)驗(yàn)豐富的交通指揮員一樣,綜合分析所有車輛提供的信息,然后為每輛車制定最安全的行駛路線。
這項(xiàng)研究的突破性在于引入了"圖思維"推理框架。如果把傳統(tǒng)的決策過程比作一條直線,那么圖思維就像一張復(fù)雜的思維導(dǎo)圖,每個(gè)節(jié)點(diǎn)代表一個(gè)具體的思考步驟。系統(tǒng)會(huì)依次思考"我能看到什么"、"什么東西擋住了我的視線"、"在我看不見的地方可能有什么危險(xiǎn)"等問題,然后將這些答案串聯(lián)起來,最終得出最佳的駕駛決策。
一、突破傳統(tǒng)視野限制的協(xié)作感知技術(shù)
當(dāng)你駕車行駛在路上時(shí),最擔(dān)心的莫過于突然從盲區(qū)沖出的車輛或行人。傳統(tǒng)的自動(dòng)駕駛汽車就像戴著眼罩的人,只能依靠自己有限的傳感器來感知周圍環(huán)境。當(dāng)前方有大型車輛、建筑物或其他障礙物時(shí),這些"盲區(qū)"就成了安全隱患的溫床。
研究團(tuán)隊(duì)設(shè)計(jì)的V2V-GoT系統(tǒng)徹底改變了這種局面。這個(gè)系統(tǒng)的核心理念是讓多輛車像一個(gè)配合默契的觀察團(tuán)隊(duì)一樣工作。以一個(gè)具體場景為例:當(dāng)你的車被前方大貨車遮擋視線時(shí),旁邊車道的汽車可能正好能看到你看不見的區(qū)域。在V2V-GoT系統(tǒng)中,這些車輛會(huì)主動(dòng)分享它們的觀察結(jié)果,就像朋友在電話里告訴你"小心,你的盲區(qū)里有輛車正在變道"一樣。
系統(tǒng)的感知過程分為幾個(gè)清晰的步驟。首先,它會(huì)識別當(dāng)前車輛能夠直接觀察到的所有物體,包括其他車輛、行人、自行車等。接著,系統(tǒng)會(huì)分析哪些物體可能遮擋了視線——比如前方的大型貨車、路邊停放的客車等。然后,利用其他車輛提供的信息,系統(tǒng)能夠"看到"那些原本隱藏在盲區(qū)中的物體。最后,它將所有可見和不可見的重要物體整合在一起,形成一個(gè)完整的環(huán)境認(rèn)知圖景。
這種協(xié)作感知技術(shù)的威力在于它能大幅提升安全性。研究數(shù)據(jù)顯示,使用這項(xiàng)技術(shù)后,車輛對周圍環(huán)境的感知準(zhǔn)確度顯著提高,特別是在復(fù)雜的城市交通環(huán)境中。系統(tǒng)能夠提前發(fā)現(xiàn)那些原本會(huì)造成驚險(xiǎn)瞬間的隱藏車輛,給駕駛員或自動(dòng)駕駛系統(tǒng)更多的反應(yīng)時(shí)間。
二、智能預(yù)測系統(tǒng):洞察未來三秒的交通動(dòng)態(tài)
預(yù)測其他車輛的行為就像預(yù)測天氣一樣復(fù)雜,但對安全駕駛卻至關(guān)重要。V2V-GoT系統(tǒng)在這方面展現(xiàn)了令人印象深刻的能力,它能夠預(yù)測周圍車輛在未來三秒內(nèi)的行駛軌跡,這對于避免碰撞具有關(guān)鍵意義。
系統(tǒng)的預(yù)測機(jī)制包含兩個(gè)互補(bǔ)的分析路徑。第一個(gè)路徑基于感知觀察,類似于一個(gè)經(jīng)驗(yàn)豐富的老司機(jī)通過觀察其他車輛的行為模式來判斷它們的意圖。系統(tǒng)會(huì)分析車輛的當(dāng)前位置、行駛速度、加速度變化等信息,然后推斷它們可能的行駛方向。比如,如果系統(tǒng)觀察到一輛車正在減速并且打開了轉(zhuǎn)向燈,它就會(huì)預(yù)測這輛車即將轉(zhuǎn)彎。
第二個(gè)路徑更加直接高效,它利用了車聯(lián)網(wǎng)技術(shù)的優(yōu)勢。在配備了通信設(shè)備的智能交通環(huán)境中,其他車輛可以直接分享它們的行駛計(jì)劃。這就像在群聊中大家提前告知自己的行程一樣,大大減少了猜測的不確定性。當(dāng)一輛車計(jì)劃在接下來的幾秒內(nèi)變換車道時(shí),它可以直接將這個(gè)意圖告知周圍的車輛,讓整個(gè)交通系統(tǒng)運(yùn)行得更加協(xié)調(diào)。
系統(tǒng)會(huì)將這兩種預(yù)測結(jié)果智能地融合在一起。如果某輛車既被觀察預(yù)測為直行,又通過通信確認(rèn)了直行計(jì)劃,那么預(yù)測的可靠性就會(huì)大大提高。相反,如果兩種預(yù)測結(jié)果出現(xiàn)分歧,系統(tǒng)會(huì)采用更保守的策略,確保安全第一。
研究團(tuán)隊(duì)在真實(shí)道路數(shù)據(jù)上測試了這套預(yù)測系統(tǒng),結(jié)果顯示它能夠準(zhǔn)確預(yù)測大部分車輛的短期行為。這種預(yù)測能力為后續(xù)的路徑規(guī)劃提供了可靠的基礎(chǔ),讓自動(dòng)駕駛汽車能夠提前做好應(yīng)對準(zhǔn)備,而不是被動(dòng)地反應(yīng)突發(fā)情況。
三、圖思維推理:構(gòu)建決策的完整思維鏈條
V2V-GoT系統(tǒng)最具創(chuàng)新性的部分是它的圖思維推理框架,這個(gè)框架就像一個(gè)訓(xùn)練有素的駕駛教練的思維過程。當(dāng)面對復(fù)雜的交通情況時(shí),優(yōu)秀的駕駛員不會(huì)匆忙做決定,而是會(huì)按照一定的邏輯順序分析情況。V2V-GoT系統(tǒng)正是模仿了這種有條理的思考方式。
這個(gè)思維框架包含九個(gè)相互關(guān)聯(lián)的思考步驟,每個(gè)步驟都像是解答一個(gè)具體問題。系統(tǒng)首先會(huì)問自己"我能看到哪些重要的物體",然后思考"什么東西擋住了我的視線",接著分析"在我看不見的地方可能還有什么"。這三個(gè)步驟幫助系統(tǒng)建立了對當(dāng)前環(huán)境的全面認(rèn)知。
接下來的思考步驟聚焦于預(yù)測未來。系統(tǒng)會(huì)基于觀察到的信息推測"這些物體接下來會(huì)怎么移動(dòng)",同時(shí)考慮"其他車輛告訴我的行駛計(jì)劃",然后綜合得出"所有物體最可能的未來軌跡"。這種雙重驗(yàn)證的方式大大提高了預(yù)測的準(zhǔn)確性。
最后三個(gè)步驟處理具體的駕駛決策。系統(tǒng)會(huì)確定"為了避免碰撞,我應(yīng)該采取什么行動(dòng)",比如加速、減速、轉(zhuǎn)向等,然后具體規(guī)劃"我應(yīng)該按照什么路線行駛"。整個(gè)過程就像一位經(jīng)驗(yàn)豐富的司機(jī)在心中默默進(jìn)行的思考,但速度更快、更準(zhǔn)確。
這種圖思維方式的優(yōu)勢在于它的邏輯性和可追溯性。如果系統(tǒng)做出了某個(gè)決策,研究人員可以清楚地追蹤到每個(gè)思考步驟,了解決策背后的邏輯。這不僅有助于系統(tǒng)優(yōu)化,也為自動(dòng)駕駛技術(shù)的安全監(jiān)管提供了透明度。
四、創(chuàng)新的多模態(tài)大語言模型架構(gòu)
V2V-GoT系統(tǒng)的技術(shù)核心是一個(gè)專門定制的多模態(tài)大語言模型,這個(gè)模型就像一位精通多種語言的翻譯官,能夠同時(shí)理解來自激光雷達(dá)的點(diǎn)云數(shù)據(jù)、攝像頭的圖像信息,以及文字形式的問題和指令。
與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)不同,V2V-GoT的模型設(shè)計(jì)充分考慮了時(shí)間的連續(xù)性。以往的系統(tǒng)通常只關(guān)注當(dāng)前時(shí)刻的信息,就像只看一張快照來判斷動(dòng)態(tài)情況。而V2V-GoT系統(tǒng)會(huì)同時(shí)分析當(dāng)前和前一時(shí)刻的傳感器數(shù)據(jù),就像看連續(xù)的兩幀電影畫面來理解劇情發(fā)展一樣。這種設(shè)計(jì)使系統(tǒng)能夠更好地理解交通環(huán)境的動(dòng)態(tài)變化,提高對移動(dòng)物體行為的判斷準(zhǔn)確性。
模型的訓(xùn)練過程采用了精心設(shè)計(jì)的策略。研究團(tuán)隊(duì)使用了低秩適應(yīng)技術(shù),這是一種高效的模型訓(xùn)練方法,就像給已經(jīng)學(xué)會(huì)基本技能的學(xué)生進(jìn)行專業(yè)培訓(xùn)一樣。系統(tǒng)在保持原有語言理解能力的基礎(chǔ)上,專門學(xué)習(xí)了如何處理車輛協(xié)作和交通預(yù)測的任務(wù)。
整個(gè)系統(tǒng)的信息處理流程就像一個(gè)高效的團(tuán)隊(duì)會(huì)議。多輛車的傳感器數(shù)據(jù)首先被轉(zhuǎn)換成模型能夠理解的"視覺詞匯",然后與具體的駕駛問題一起輸入到大語言模型中。模型會(huì)按照圖思維框架逐步分析,最終輸出自然語言形式的答案,比如"建議減速并保持直行,前方左側(cè)可能有車輛變道"。
五、全面的數(shù)據(jù)集構(gòu)建與評估體系
為了訓(xùn)練和測試V2V-GoT系統(tǒng),研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為V2V-GoT-QA的大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像一本詳盡的駕駛教科書,包含了各種復(fù)雜交通場景下的標(biāo)準(zhǔn)答案。
數(shù)據(jù)集基于真實(shí)的V2V4Real數(shù)據(jù)集構(gòu)建,包含了超過14萬個(gè)精心設(shè)計(jì)的問答對。每個(gè)問答對都對應(yīng)圖思維框架中的特定思考步驟,涵蓋了從基礎(chǔ)感知到復(fù)雜決策的完整流程。比如,對于一個(gè)典型的超車場景,數(shù)據(jù)集會(huì)包含"當(dāng)前車道前方有什么車輛"、"對向車道是否有來車"、"超車是否安全"等一系列相關(guān)問題及其標(biāo)準(zhǔn)答案。
數(shù)據(jù)集的構(gòu)建過程極其嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)利用真實(shí)交通數(shù)據(jù)中的車輛軌跡、位置信息和幾何關(guān)系,自動(dòng)生成了各種問答對。為了確保質(zhì)量,他們還制定了詳細(xì)的評估標(biāo)準(zhǔn)。感知類問題使用F1分?jǐn)?shù)來衡量識別準(zhǔn)確性,預(yù)測類問題使用軌跡距離誤差來評估,而規(guī)劃類問題則綜合考慮路徑偏差和碰撞率等多個(gè)指標(biāo)。
評估結(jié)果顯示,V2V-GoT系統(tǒng)在所有測試任務(wù)中都表現(xiàn)出色。特別是在最終的路徑規(guī)劃任務(wù)中,系統(tǒng)將碰撞率降低到了1.83%,比傳統(tǒng)方法的2.85%有了顯著改善。同時(shí),系統(tǒng)生成的行駛軌跡與理想路徑的平均偏差僅為2.62米,遠(yuǎn)優(yōu)于基準(zhǔn)方法的4.93米。
六、實(shí)驗(yàn)驗(yàn)證:安全性能的顯著提升
研究團(tuán)隊(duì)進(jìn)行了全面的對比實(shí)驗(yàn),就像在不同的考試中測試學(xué)生的能力一樣。他們將V2V-GoT系統(tǒng)與多種傳統(tǒng)方法進(jìn)行了詳細(xì)比較,包括無協(xié)作的單車系統(tǒng)、簡單的數(shù)據(jù)融合方法,以及之前最先進(jìn)的V2V-LLM系統(tǒng)。
實(shí)驗(yàn)結(jié)果令人振奮。在最關(guān)鍵的安全指標(biāo)上,V2V-GoT系統(tǒng)展現(xiàn)出了壓倒性的優(yōu)勢。在一秒、二秒和三秒的預(yù)測時(shí)間范圍內(nèi),系統(tǒng)的碰撞率分別僅為0.12%、1.92%和3.45%,相比之前的最佳方法分別降低了84%、33%和30%。這種改善意味著在實(shí)際道路上,使用V2V-GoT系統(tǒng)的車輛發(fā)生事故的概率將大大降低。
路徑精度方面的提升同樣顯著。系統(tǒng)生成的行駛軌跡與最優(yōu)路徑的偏差平均僅為2.62米,而傳統(tǒng)的單車系統(tǒng)偏差高達(dá)5.84米。這種精度的提升在實(shí)際駕駛中非常重要,特別是在狹窄的城市道路或高速公路匝道等需要精確控制的場景中。
研究團(tuán)隊(duì)還進(jìn)行了深入的消融實(shí)驗(yàn),驗(yàn)證圖思維框架中每個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),遮擋感知模塊能夠顯著提高系統(tǒng)對隱藏物體的識別能力,而規(guī)劃感知預(yù)測模塊則大幅改善了對其他車輛行為的預(yù)測準(zhǔn)確性。當(dāng)移除這些關(guān)鍵組件時(shí),系統(tǒng)的整體性能都會(huì)出現(xiàn)明顯下降,證明了每個(gè)設(shè)計(jì)決策的重要性。
通訊成本方面,V2V-GoT系統(tǒng)保持了與前代系統(tǒng)相同的效率。雖然系統(tǒng)處理的信息更加復(fù)雜,但通過智能的信息管理策略,實(shí)際的數(shù)據(jù)傳輸量并沒有增加。這意味著系統(tǒng)可以在現(xiàn)有的車聯(lián)網(wǎng)基礎(chǔ)設(shè)施上部署,無需額外的硬件投資。
七、技術(shù)創(chuàng)新的深層意義與未來展望
V2V-GoT系統(tǒng)的成功不僅僅是技術(shù)指標(biāo)的改善,更代表了自動(dòng)駕駛技術(shù)發(fā)展的一個(gè)重要里程碑。這項(xiàng)研究首次證明了將大語言模型的推理能力與車輛協(xié)作技術(shù)結(jié)合的可行性,為未來的智能交通系統(tǒng)設(shè)計(jì)提供了新的思路。
系統(tǒng)的圖思維框架特別值得關(guān)注。這種結(jié)構(gòu)化的推理方式使得復(fù)雜的駕駛決策變得更加透明和可解釋。在自動(dòng)駕駛技術(shù)的安全監(jiān)管中,這種透明性極其重要。監(jiān)管機(jī)構(gòu)和技術(shù)人員可以清晰地了解系統(tǒng)是如何得出特定決策的,這對建立公眾對自動(dòng)駕駛技術(shù)的信任具有重要意義。
從實(shí)際應(yīng)用角度來看,V2V-GoT系統(tǒng)為智能交通系統(tǒng)的部署提供了現(xiàn)實(shí)可行的方案。系統(tǒng)設(shè)計(jì)充分考慮了真實(shí)世界的限制條件,包括通訊帶寬、計(jì)算資源和部署成本等因素。研究結(jié)果表明,在合理的資源消耗下,系統(tǒng)能夠?qū)崿F(xiàn)顯著的安全性能提升。
系統(tǒng)的模塊化設(shè)計(jì)也為未來的技術(shù)演進(jìn)留下了空間。隨著大語言模型技術(shù)的不斷發(fā)展,V2V-GoT框架可以方便地集成更先進(jìn)的AI模型。同時(shí),圖思維的結(jié)構(gòu)化特性使得系統(tǒng)能夠靈活地添加新的推理步驟或優(yōu)化現(xiàn)有邏輯,適應(yīng)不斷變化的交通環(huán)境和法規(guī)要求。
研究團(tuán)隊(duì)在論文中也坦誠地討論了當(dāng)前系統(tǒng)的局限性。例如,系統(tǒng)的性能很大程度上依賴于參與協(xié)作的車輛數(shù)量和質(zhì)量。在車聯(lián)網(wǎng)普及程度較低的地區(qū),系統(tǒng)的優(yōu)勢可能無法完全發(fā)揮。此外,惡劣天氣條件下傳感器性能的下降也可能影響系統(tǒng)的可靠性。
展望未來,V2V-GoT技術(shù)有望在多個(gè)方向上繼續(xù)發(fā)展。研究團(tuán)隊(duì)計(jì)劃將系統(tǒng)擴(kuò)展到更復(fù)雜的交通場景,包括十字路口、環(huán)島和復(fù)雜的高速公路交匯處。他們還在探索如何將行人和自行車等非機(jī)動(dòng)交通參與者納入?yún)f(xié)作網(wǎng)絡(luò),構(gòu)建更加全面的智能交通生態(tài)系統(tǒng)。
說到底,V2V-GoT系統(tǒng)代表了自動(dòng)駕駛技術(shù)向著更安全、更智能方向發(fā)展的重要一步。通過讓車輛像一個(gè)協(xié)調(diào)有序的團(tuán)隊(duì)一樣工作,這項(xiàng)技術(shù)不僅提高了個(gè)體車輛的安全性,更為未來的智慧交通系統(tǒng)奠定了技術(shù)基礎(chǔ)。隨著這類技術(shù)的不斷成熟和普及,我們有理由期待一個(gè)交通事故大幅減少、出行效率顯著提升的未來。對于普通消費(fèi)者而言,這意味著更安全的日常出行體驗(yàn),以及逐步向完全自動(dòng)駕駛時(shí)代的平穩(wěn)過渡。
Q&A
Q1:V2V-GoT系統(tǒng)是什么?它如何讓自動(dòng)駕駛更安全?
A:V2V-GoT是NVIDIA開發(fā)的多車協(xié)作自動(dòng)駕駛系統(tǒng),通過讓多輛車像團(tuán)隊(duì)一樣分享觀察信息,解決單車視野盲區(qū)問題。系統(tǒng)使用圖思維推理,按照固定步驟分析交通狀況,能將碰撞率降低到1.83%,比傳統(tǒng)方法安全得多。
Q2:圖思維推理框架具體是怎么工作的?
A:圖思維框架包含9個(gè)相互關(guān)聯(lián)的思考步驟,就像經(jīng)驗(yàn)豐富的司機(jī)思考過程。系統(tǒng)依次分析"能看到什么"、"什么擋住視線"、"盲區(qū)有什么危險(xiǎn)"、"其他車輛會(huì)如何移動(dòng)"等問題,最終制定最安全的行駛路線。
Q3:這項(xiàng)技術(shù)什么時(shí)候能在普通汽車上使用?
A:目前V2V-GoT系統(tǒng)還處于研究階段,需要車聯(lián)網(wǎng)基礎(chǔ)設(shè)施支持。實(shí)際應(yīng)用需要等待相關(guān)技術(shù)標(biāo)準(zhǔn)制定、法規(guī)完善,以及車聯(lián)網(wǎng)設(shè)備普及。研究團(tuán)隊(duì)正在優(yōu)化系統(tǒng),為未來商業(yè)化部署做準(zhǔn)備。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。