2023年以來,越來越多車型開始接入大模型,越來越多Tier1推出汽車大模型解決方案。特斯拉FSD V12的出色進展和SORA的推出,更加速了AI大模型在座艙和智駕領域的落地。
端到端自動駕駛大模型的發(fā)展突飛猛進
2023年2月,采用端到端自動駕駛模型的特斯拉FSD v12.2.1已經開始陸續(xù)在美開啟推送,不僅僅是員工和測試人員。根據(jù)首批客戶的反饋,F(xiàn)SD V12 相當強大,讓以前不相信不敢用自動駕駛的普通人也敢于使用FSD了。譬如,特斯拉 FSD V12 可繞行路邊積水,一位特斯拉的工程師評論說:這種開法很難用明確的代碼來實現(xiàn),但特斯拉的端到端方案幾乎毫不費力地實現(xiàn)了。
自動駕駛AI大模型的發(fā)展可以分為四個階段:
1.0時代就是在感知層面使用大模型(Transformer);
2.0時代就是模塊化,感知規(guī)控決策都用大模型;
3.0時代就是端到端大模型(一“端”是傳感器的原始數(shù)據(jù),另一“端”直接輸出駕駛動作);
4.0時代就是從垂直領域的人工智能走向通用領域的人工智能(AGI的世界模型)。
現(xiàn)在多數(shù)公司處于2.0時代。特斯拉FSD V12已處于3.0時代。其他主機廠和Tier1紛紛跟進FSD V12的端到端大模型。2024年1 月 30 日,小鵬汽車宣布,小鵬的端到端模型下一步將會全面上車。據(jù)悉,蔚來和理想的“基于端到端”自動駕駛模型也將在2024年上線。
FSD V12駕駛決策交由AI算法生成,用海量視頻數(shù)據(jù)訓練出的端到端神經網(wǎng)絡,替換掉了超過30萬行C++代碼。FSD V12提供了一條有待驗證的全新路徑,若得以走通,將對行業(yè)產生顛覆性影響。
2月16日,OpenAI發(fā)布文本生成視頻模型SORA,標志著AI視頻應用即將大規(guī)模應用的前夜。SORA不僅支持通過文本或圖像生成長達60秒的視頻,其視頻生成能力、復雜場景和角色生成能力、以及對物理世界模擬的能力,都顯著超越了之前的技術。
SORA和FSD V12都是通過視覺讓AI能夠理解甚至模擬真實的物理世界。Elon Mask認為,“FSD 12和Sora不過是AI通過視覺認知世界、理解世界上的兩個開花結果,F(xiàn)SD最終用于駕駛行為,Sora則是用來生成視頻?!?
SORA的爆火,進一步證明了FSD V12的合理性。馬斯克稱「特斯拉已經能夠制作真實世界視頻大約一年了」。
來源:Twitter
AI大模型快速演化,帶來全新機會
最近三年,自動駕駛大模型經歷了若干次的演化,領先車企的自動駕駛系統(tǒng)幾乎每年要重寫一次。這也給后來者提供了切入機會。
CVPR2023上,商湯、OpenDriveLab、地平線等聯(lián)合發(fā)布的端到端的自動駕駛算法UniAD,獲得了2023年的最佳論文。
2024年初,中科慧拓技術團隊和中科院自動化所共同提出的生成式端到端自動駕駛模型GenAD,將生成式人工智能(Generative AI)和端到端自動駕駛技術結合,是業(yè)界首個生成式端到端自動駕駛模型。該技術顛覆了UniAD的漸進式流程端到端方案,探討了一種新的端到端自動駕駛范式,關鍵在于采用生成式人工智能的方式預測自車和周圍環(huán)境在過去場景中的時序演變方式。
來源:中科慧拓
2024年2月,地平線和華中科技大學提出了VADv2,一個基于概率規(guī)劃的端到端駕駛模型。VADv2以流方式輸入多視角圖像序列,將傳感器數(shù)據(jù)轉換為環(huán)境標記嵌入,輸出動作的概率分布,并從中采樣一個動作來控制車輛。僅使用攝像頭傳感器,VADv2在CARLA Town05基準測試中實現(xiàn)了最先進的閉環(huán)性能,顯著優(yōu)于所有現(xiàn)有方法。它能夠在完全端到端的方式下穩(wěn)定運行,甚至不需要基于規(guī)則的封裝。
來源:地平線
在Town05長距離基準測試中,VADv2取得了85.1的駕駛分數(shù),98.4的路程完成度,以及0.87的違規(guī)分數(shù),如表1所示。與之前的最先進方法相比,VADv2在路程完成度更高的同時,顯著提高了駕駛分數(shù),增加了9.0。值得注意的是,VADv2僅使用攝像頭作為感知輸入,而DriveMLM同時使用了攝像頭和激光雷達。此外,與之前僅依賴攝像頭最佳方法相比,VADv2顯示出更大的優(yōu)勢,駕駛分數(shù)的顯著提高達到了16.8。
來源:地平線
也是在2024年2月,清華大學交叉信息研究院和理想汽車提出了 DriveVLM。DriveVLM的整體流程如下圖所示。一系列圖像被大型視覺語言模型(VLM)處理,以執(zhí)行特定的鏈式思維(CoT)推理,得出駕駛規(guī)劃結果。這個大型VLM包括一個視覺編碼器和一個大型語言模型(LLM)。
來源:清華大學交叉信息研究院
由于VLMs在空間推理和高計算需求方面的局限性,DriveVLM團隊又提出了DriveVLM-Dual,一個結合了DriveVLM與傳統(tǒng)自主駕駛流水線優(yōu)勢的混合系統(tǒng)。DriveVLM-Dual可選擇性地將DriveVLM與傳統(tǒng)的3D感知和規(guī)劃模塊相結合,例如3D目標檢測器、占用網(wǎng)絡和運動規(guī)劃器,使系統(tǒng)能夠實現(xiàn)3D定位和高頻規(guī)劃能力。這種雙重系統(tǒng)設計,類似于人腦的慢速和快速思考過程,能夠有效適應駕駛場景中不斷變化的復雜性。
大模型興起,AI和云計算公司受關注
AI大模型興起,算力、算法和數(shù)據(jù)三者缺一不可。擅長算法,儲備了大量算力的AI公司(如科大訊飛、商湯科技、曠視科技等),以及具備強大智算中心的云計算公司(如浪潮、火山引擎、騰訊云等)受到主機廠關注。
商湯在AI大模型領域布局了座艙多模態(tài)大模型SenseChat-Vision、AIDC智算中心(6000P算力)、自動駕駛大模型DriveMLM。2024年初,商湯推出DriveMLM,在閉環(huán)測試最權威榜單CARLA上取得很好的成績。DriveMLM是介于模塊化和端到端方案之間的中間方案,具備可解釋性。
來源:商湯科技
在自動駕駛的Corner Case采集上,火山引擎和毫末智行一起將大模型應用在場景生成和標注提效上。在火山引擎提供的云服務能力支持下,毫末DriveGPT大模型的預標注,整體效率提升了10倍。
2023年,騰訊發(fā)布了在智能汽車云、智駕云圖、智能座艙等領域的升級產品和方案。算力方面,騰訊智能汽車云帶來3.2Tbps帶寬,算力性能提升3倍,通信性能提升10倍,計算集群GPU利用率提升60%以上,為智能駕駛大模型訓練提供高帶寬、低延遲的智算能力支撐。
在訓練加速方面,騰訊智能汽車云結合太極Angel訓練加速框架,訓練速度相比業(yè)界主流框架提高1倍,推理速度相比業(yè)界主流框架提升1.3倍。博世、蔚來汽車、英偉達、奔馳、文遠知行等企業(yè)目前都是騰訊智能汽車云的用戶。2024年,騰訊將進一步加強AI大模型的建設。
審核編輯:劉清
-
特斯拉
+關注
關注
66文章
6378瀏覽量
129149 -
自動駕駛
+關注
關注
790文章
14321瀏覽量
170674 -
FSD
+關注
關注
0文章
105瀏覽量
6736 -
OpenAI
+關注
關注
9文章
1210瀏覽量
8922 -
大模型
+關注
關注
2文章
3146瀏覽量
4073
原文標題:汽車AI大模型研究:端到端突飛猛進,大模型演化帶來全新機會
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
英特爾發(fā)布2023-2024企業(yè)社會責任報告
中科創(chuàng)達入選車載操作系統(tǒng)TOP10企業(yè)
匯川技術2023-2024年度信息披露評價榮獲A級
智現(xiàn)未來榮獲甲子光年“2023-2024年度科技產業(yè)最具投資價值企業(yè)”

評論