av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 Ctrl-Crash:可控制的真實(shí)車禍場景生成——蒙特利爾理工學(xué)院與蒙特利爾人工智能研究所聯(lián)合研發(fā)突破性技術(shù)

Ctrl-Crash:可控制的真實(shí)車禍場景生成——蒙特利爾理工學(xué)院與蒙特利爾人工智能研究所聯(lián)合研發(fā)突破性技術(shù)

2025-06-07 09:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 09:51 ? 科技行者

在自動駕駛汽車的安全測試領(lǐng)域,一個長期存在的痛點(diǎn)是缺乏真實(shí)的車禍視頻數(shù)據(jù)。2025年5月30日,由蒙特利爾理工學(xué)院、蒙特利爾大學(xué)、麥吉爾大學(xué)和三星AI實(shí)驗(yàn)室的研究團(tuán)隊聯(lián)合發(fā)表的論文《Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes》(可控擴(kuò)散模型生成真實(shí)車禍)在這一領(lǐng)域帶來了突破性進(jìn)展。這項(xiàng)研究發(fā)表于arXiv預(yù)印本平臺(論文編號:2506.00227v1),由Anthony Gosselin、Ge Ya Luo等多位研究者共同完成。感興趣的讀者可以通過研究團(tuán)隊的項(xiàng)目網(wǎng)頁https://anthonygosselin.github.io/Ctrl-Crash-ProjectPage/獲取更多信息。

一、為什么需要模擬車禍?背景與挑戰(zhàn)

想象一下,你正在設(shè)計一個自動駕駛系統(tǒng),需要確保它在各種情況下都能安全運(yùn)行,包括那些極為罕見且危險的車禍場景。問題在于:你如何測試這些場景而不實(shí)際造成傷害?

自動駕駛汽車的發(fā)展在很大程度上依賴于大規(guī)模收集的安全駕駛數(shù)據(jù),但真實(shí)的車禍視頻卻極為稀缺。這導(dǎo)致自動駕駛系統(tǒng)在預(yù)測、識別和應(yīng)對這些關(guān)鍵邊緣場景時存在明顯短板。正如研究團(tuán)隊指出的:"改善交通安全需要真實(shí)且可控的事故模擬。"

過去解決這一問題的方法主要分兩類:一類是基于物理的渲染方法,使用游戲引擎或物理模擬器建模事故動態(tài),但這些方法視覺真實(shí)感不足,需要昂貴的渲染管道和大量人工努力來創(chuàng)建環(huán)境和資產(chǎn);另一類是數(shù)據(jù)驅(qū)動方法,如生成模型,依賴于真實(shí)世界的鏡頭,但由于事故事件的罕見性和倫理復(fù)雜性,獲取足夠數(shù)量的數(shù)據(jù)非常困難。此外,大多數(shù)生成方法集中在正常駕駛行為上,避開了車禍動態(tài)所固有的復(fù)雜性和不可預(yù)測性。

二、Ctrl-Crash:像魔術(shù)師一樣控制車禍場景

研究團(tuán)隊開發(fā)的Ctrl-Crash系統(tǒng)就像一個有魔力的電影導(dǎo)演,能夠從單張圖像出發(fā),創(chuàng)造出各種可能的車禍場景。這個系統(tǒng)直接在像素空間中操作,而不是使用計算機(jī)圖形原語或物理模型的顯式表示。

Ctrl-Crash的獨(dú)特之處在于它支持三種關(guān)鍵的輸入條件:

首先,它需要一個初始圖像幀,相當(dāng)于你給導(dǎo)演提供了場景的起始畫面。這個初始幀捕捉了場景的外觀、布局和環(huán)境,為生成提供視覺基礎(chǔ)。

其次,它接受空間控制信號,具體表現(xiàn)為汽車和行人的邊界框序列。你可以把這些邊界框想象為導(dǎo)演給演員的位置標(biāo)記,告訴系統(tǒng)"這輛車應(yīng)該在哪里移動"。每個邊界框都通過填充顏色編碼其唯一的跟蹤ID,通過邊框顏色編碼其對象類別(如汽車、卡車等),使系統(tǒng)能夠在幀之間區(qū)分代理。

第三,也是最關(guān)鍵的,它接受語義意圖信號,以離散的碰撞類型編碼。這就像告訴導(dǎo)演:"我想看到一個自我車輛與另一輛車相撞的場景"。系統(tǒng)支持五種碰撞類型:無碰撞、僅自我車輛碰撞、自我車輛/其他車輛碰撞、僅車輛碰撞、以及車輛/車輛碰撞。

通過這些條件信號,Ctrl-Crash能夠引導(dǎo)碰撞的敘事,模擬合理的交互序列,并探索給定場景的反事實(shí)變體,回答這樣的問題:"如果代理軌跡或碰撞類型不同,場景會如何不同地演變?"

三、技術(shù)內(nèi)幕:Ctrl-Crash如何實(shí)現(xiàn)魔法

Ctrl-Crash的技術(shù)基礎(chǔ)建立在潛在擴(kuò)散模型和無分類器引導(dǎo)之上。想象擴(kuò)散模型就像一個逐漸學(xué)習(xí)如何從噪聲中恢復(fù)清晰圖像的過程,就像從一團(tuán)霧中逐漸顯現(xiàn)出清晰的風(fēng)景。

研究團(tuán)隊創(chuàng)新性地擴(kuò)展了無分類器引導(dǎo)方法,使系統(tǒng)能夠?qū)γ總€控制模態(tài)(邊界框和碰撞類型)獨(dú)立調(diào)整引導(dǎo)強(qiáng)度。這就像廚師能夠精確控制多種調(diào)料的用量,以達(dá)到最佳口感。這種因子化公式允許在推理時對每個條件通道進(jìn)行精細(xì)且可解釋的控制。

系統(tǒng)的訓(xùn)練采用兩階段策略:第一階段在野外收集的第一人稱視角事故視頻上微調(diào)預(yù)訓(xùn)練的穩(wěn)定視頻擴(kuò)散(SVD)模型;第二階段訓(xùn)練ControlNet適配器處理?xiàng)l件,以引導(dǎo)視頻生成。這就像先教會一名廚師基本烹飪技巧,然后再教他如何根據(jù)特定食譜調(diào)整菜肴。

為了促進(jìn)推理時的魯棒性和可控性,研究團(tuán)隊在訓(xùn)練期間應(yīng)用了條件信號的隨機(jī)掩蔽。對于邊界框條件,他們引入了時間dropout策略:在每個訓(xùn)練步驟中,均勻采樣一個時間步k,并使用可學(xué)習(xí)的空值嵌入掩蔽從時間步k開始的所有邊界框幀。這種方法教會模型在僅有部分代理軌跡信息的情況下也能表現(xiàn)得合理。

系統(tǒng)還采用了課程學(xué)習(xí)計劃:邊界框掩蔽在前21,000個訓(xùn)練步驟中以50%的概率應(yīng)用,之后以100%的概率應(yīng)用(最多31,000步),鼓勵早期從密集監(jiān)督學(xué)習(xí),然后過渡到部分條件。對于語義信號(碰撞類型和初始圖像),系統(tǒng)獨(dú)立地進(jìn)行掩蔽:以10%的概率僅掩蔽碰撞類型;以10%的概率僅掩蔽初始圖像;以10%的概率同時掩蔽兩者。這有助于防止模型崩潰到任何單一條件信號上,并允許無分類器引導(dǎo)在不同控制配置下可靠運(yùn)行。

四、數(shù)據(jù)處理:像金礦工人挖掘珍貴車禍數(shù)據(jù)

Ctrl-Crash的一個關(guān)鍵創(chuàng)新點(diǎn)是其數(shù)據(jù)處理和準(zhǔn)備方法,使研究團(tuán)隊能夠從僅有儀表盤攝像頭的汽車自然發(fā)生的多樣化碰撞中創(chuàng)建控制結(jié)構(gòu)。

研究團(tuán)隊使用MM-AU數(shù)據(jù)集,這是一個從在線來源收集的大規(guī)模儀表盤碰撞視頻集合。為確保高質(zhì)量,他們通過一系列過濾步驟整理這個數(shù)據(jù)集:

首先,他們使用基于FFT的啟發(fā)式方法移除低分辨率或塊狀視頻。想象這個過程就像淘金者使用篩子篩選沙子中的金塊,只保留真正有價值的高質(zhì)量視頻。

其次,他們使用PySceneDetect檢測和排除鏡頭變化,并將片段標(biāo)準(zhǔn)化為6幀每秒、512×320分辨率的25幀段。這就像確保每一段視頻都符合統(tǒng)一的標(biāo)準(zhǔn),方便后續(xù)處理。

為了避免生成包含暴力內(nèi)容的場景,研究團(tuán)隊還排除了涉及可見人類的場景。過濾后,他們保留了原始11,727個視頻中的約7,500個視頻,并按照90/10的比例隨機(jī)抽樣劃分為訓(xùn)練集和保留測試集。

為獲得所有道路使用者的可靠邊界框標(biāo)注,研究團(tuán)隊設(shè)計了一個混合管道,結(jié)合了檢測和分割模型。對于檢測,他們使用YOLOv8進(jìn)行逐幀對象檢測;對于跟蹤,他們使用SAM2生成實(shí)例級掩碼和可靠跟蹤,特別是在對象被遮擋或變形時,這在碰撞視頻中很常見。這種組合方法產(chǎn)生了在所有視頻幀中時間對齊的邊界框,關(guān)鍵的是,它支持代理動態(tài)進(jìn)入或退出場景,這對于真實(shí)的動態(tài)駕駛場景至關(guān)重要。

五、驚人的結(jié)果:數(shù)字與人眼的雙重驗(yàn)證

Ctrl-Crash的生成質(zhì)量通過兩種主要方式進(jìn)行評估:定量指標(biāo)和定性評估。

在定量評估中,Ctrl-Crash在Fréchet視頻距離(FVD)和JEDi(一種新的視頻質(zhì)量評估指標(biāo))等指標(biāo)上顯著優(yōu)于之前的擴(kuò)散模型方法。例如,與基礎(chǔ)SVD模型相比,Ctrl-Crash的FVD得分從1420提高到449.5,JEDi得分從3.628改善到0.1219,表明它與真實(shí)車禍動態(tài)的對齊更強(qiáng),視頻質(zhì)量更高。

研究團(tuán)隊還研究了改變用作條件的邊界框幀數(shù)量對Ctrl-Crash的影響。隨著提供的邊界框幀數(shù)量增加,生成質(zhì)量在分布指標(biāo)(FVD、JEDi)和幀級得分(LPIPS、SSIM、PSNR)上一致提高。這個趨勢驗(yàn)證了Ctrl-Crash能夠優(yōu)雅地在無條件預(yù)測和全監(jiān)督重建之間插值。

為了評估不同碰撞類型條件對生成質(zhì)量的影響,研究團(tuán)隊進(jìn)行了"反事實(shí)碰撞任務(wù)"測試,在該測試中,他們只改變碰撞類型條件而保持其他輸入不變。結(jié)果表明,生成的視頻質(zhì)量在幾乎所有情況下都略差或與使用真實(shí)碰撞類型的結(jié)果相當(dāng),這表明模型可以生成合理的替代方案,同時保持與真實(shí)視頻視覺上的接近并維持良好的視頻質(zhì)量。

研究團(tuán)隊還進(jìn)行了一項(xiàng)用戶研究,讓40名參與者對來自Ctrl-Crash、AVD2和DrivingGen的生成視頻進(jìn)行排名。參與者在評估視覺質(zhì)量和物理真實(shí)感時都強(qiáng)烈偏好Ctrl-Crash生成的視頻。統(tǒng)計分析(使用Friedman檢驗(yàn)和Nemenyi后測試)證實(shí),Ctrl-Crash在物理真實(shí)感和視覺保真度方面都顯著優(yōu)于其他方法。

六、應(yīng)用前景與未來展望

Ctrl-Crash代表了一個重要的進(jìn)步,不僅在提高安全關(guān)鍵自動駕駛測試的多樣性和覆蓋范圍方面,還在啟用反事實(shí)安全推理方面:模擬相同初始條件下的替代結(jié)果的能力,以及更好地理解碰撞的因果關(guān)系。

盡管取得了強(qiáng)大的性能,Ctrl-Crash仍有一些局限性。當(dāng)初始場景條件與所需碰撞類型沖突時,反事實(shí)結(jié)果可能難以生成。該模型也嚴(yán)重依賴邊界框,使其對跟蹤錯誤敏感,特別是在完全條件重建中。沒有邊界框條件時,運(yùn)動方向可能模糊不清,而2D邊界框難以捕捉旋轉(zhuǎn)或方向,限制了像甩尾這樣的行為的真實(shí)感。未來的工作可能探索3D邊界框或更豐富的軌跡表示來克服這一點(diǎn)。

研究團(tuán)隊將Ctrl-Crash視為在安全關(guān)鍵自動駕駛研究中發(fā)展可控生成模型的基礎(chǔ)工具。通過這種方法,自動駕駛系統(tǒng)開發(fā)者可以模擬無數(shù)可能的危險場景,而無需實(shí)際創(chuàng)造危險情況,從而大大提高測試的全面性和安全性。

總的來說,Ctrl-Crash代表了計算機(jī)視覺和自動駕駛安全研究的交叉點(diǎn)上的一個引人注目的進(jìn)步,為未來更安全、更可靠的自動駕駛系統(tǒng)鋪平了道路。隨著這些技術(shù)的進(jìn)一步發(fā)展,我們可以期待更安全的道路和更智能的車輛,能夠預(yù)見并避免潛在的危險情況。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-