99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

連接視覺語言大模型與端到端自動駕駛

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2024-11-07 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

連接視覺語言大模型與端到端自動駕駛

端到端自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為端到端模型缺乏常識知識和邏輯思維。而視覺語言多模態(tài)大模型(LargeVision-Language Models,LVLM),例如GPT-4O,已經(jīng)展現(xiàn)出極強的視覺理解能力和分析能力,可以很好的與端到端模型互為補充,充當駕駛決策的“大腦”。

基于這個思路,我們提出了一種連接視覺語言多模態(tài)大模型和端到端模型的智駕系統(tǒng) Senna,針對端到端模型魯棒性差,泛化性弱問題,行業(yè)首創(chuàng)“大模型高維駕駛決策-端到端低維軌跡規(guī)劃”的新駕駛范式,打造“大模型 +端到端”的下一代架構(gòu),實現(xiàn)安全,高效,擬人的智能駕駛。經(jīng)多個數(shù)據(jù)集上的大量實驗證明Senna 具有業(yè)界最優(yōu)的多模態(tài)+端到端規(guī)劃性能,展現(xiàn)出強大的跨場景泛化性和可遷移能力。

概述

端到端自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為端到端模型缺乏常識知識和邏輯思維。而視覺語言多模態(tài)大模型(Large Vision-Language Models,LVLM),例如GPT-4O,已經(jīng)展現(xiàn)出極強的視覺理解能力和分析能力,可以很好的與端到端模型互為補充,充當駕駛決策的“大腦”?;谶@個思路,我們提出了一種連接視覺語言多模態(tài)大模型和端到端模型的智駕系統(tǒng)Senna,針對端到端模型魯棒性差,泛化性弱問題,行業(yè)首創(chuàng)“大模型高維駕駛決策-端到端低維軌跡規(guī)劃”的新駕駛范式,打造“大模型+端到端”的下一代架構(gòu),實現(xiàn)安全,高效,擬人的智能駕駛。經(jīng)多個數(shù)據(jù)集上的大量實驗證明,Senna具有業(yè)界最優(yōu)的多模態(tài)+端到端規(guī)劃性能,展現(xiàn)出強大的跨場景泛化性和可遷移能力。

Senna解決的研究問題

此前基于大模型的自動駕駛方案,往往將大模型直接作為端到端模型,即直接用大模型預測規(guī)劃軌跡或者控制信號,但是大模型并不擅長預測精準的數(shù)值,因此這種方案并不一定是最優(yōu)解。此前神經(jīng)學的研究表明,人腦在做細致決策時,層次化的高維決策模塊和低維執(zhí)行模塊組成的系統(tǒng)起到了關(guān)鍵的作用。例如,當想要左轉(zhuǎn)的駕駛員看到紅綠燈由紅變綠,大腦中首先會思考,現(xiàn)在紅綠燈變綠了,因此我可以加速啟動通過路口。然后再通過“打轉(zhuǎn)向燈”,“踩油門”等一系列動作完成通過路口這個目標?;谏鲜鲇^察,Senna主要嘗試探索和解決三個問題:

(1)如何有效地結(jié)合多模態(tài)大模型和端到端自動駕駛模型?

wKgaoWcsaSCAanLQAAJKOrcQaug740.png

Senna采用解耦的行為決策-軌跡規(guī)劃思路,多模態(tài)大模型在大規(guī)模駕駛數(shù)據(jù)上微調(diào),以提升其對駕駛場景的理解能力,并采用自然語言輸出高維決策指令,然后端到端模型基于大模型提供的決策指令,生成具體的規(guī)劃軌跡。一方面,使用大模型預測語言化的決策指令,可以最大利用其在語言任務上預訓練的知識和常識,生成合理的決策,并且避免預測精確數(shù)字效果欠佳的缺陷;另一方面,端到端模型更擅長精確的軌跡預測,將高維決策的任務解耦,可以降低端到端模型學習的難度,提升其軌跡規(guī)劃的精確度。

(2)如何設計一個面向駕駛?cè)蝿盏亩嗄B(tài)大模型?

wKgZoWcsaSCAQb0uAAFXJwmxIjA919.png

駕駛依賴于準確的空間感知,目前常見的多模態(tài)大模型沒有針對多圖輸入進行專門優(yōu)化,此前針對駕駛?cè)蝿盏拇竽P突蛘邇H支持前視輸入,缺乏完整的空間感知,存在安全隱患;或者支持多圖輸入,但是并沒有進行細致的設計,或針對其有效性進行驗證。

為了解決這些問題,我們提出了Senna,Senna包含兩個模塊,一個駕駛多模態(tài)大模型 (Senna-VLM) 和一個端到端模型(Senna-E2E),相比于通用的多模態(tài)大模型,Senna-VLM針對駕駛?cè)蝿兆龀鋈缦略O計:首先,針對駕駛的大模型需要支持多圖從而可以輸入環(huán)視和多幀的信息,這對于準確的駕駛場景理解和安全非常重要。最初,我們嘗試簡單基于LLaVA-1.5模型加入環(huán)視多圖輸入,但是效果并不符合預期。在LLaVA中,一張圖像需要占用576個token,6張圖則需要占用3456個token,這幾乎要接近最大輸入長度,導致圖像信息占用的token數(shù)量過多。因此Senna-VLM對圖像編碼器輸出的圖像token做進一步特征壓縮,并設計了針對環(huán)視多圖的prompt,使得Senna可以區(qū)分不同視角的圖像特征并建立空間理解能力。

(3)如何有效地訓練面向駕駛?cè)蝿盏亩嗄B(tài)大模型?

wKgZoWcsaSCAWrRVAAKMGKWbWZU858.png

在有了適合駕駛?cè)蝿盏哪P驮O計后,有效地訓練LVLM是最后一步。這部分包括兩方面的內(nèi)容,數(shù)據(jù)和訓練策略。在數(shù)據(jù)方面,此前工作提出了一些策略,但是很多并不是針對規(guī)劃服務,例如檢測和grouding。另外,很多數(shù)據(jù)依賴于人工標注,這限制了數(shù)據(jù)的大規(guī)模生產(chǎn)。在本文中,我們首次驗證了不同類型的問答數(shù)據(jù)在駕駛規(guī)劃中的重要性。具體來說,我們引入了一系列面向規(guī)劃的問答數(shù)據(jù),旨在增強Senna對駕駛場景中與規(guī)劃相關(guān)的線索的理解,最終實現(xiàn)更準確的規(guī)劃。這些問答數(shù)據(jù)包括駕駛場景描述、交通參與者的運動意圖預測、交通信號檢測、高維決策規(guī)劃等。我們的數(shù)據(jù)策略可以完全通過自動化流程實現(xiàn)大規(guī)模生產(chǎn)。至于訓練策略,大多數(shù)現(xiàn)有方法采用通用數(shù)據(jù)預訓練,然后針對駕駛?cè)蝿瘴⒄{(diào)。然而,我們的實驗結(jié)果表明,這可能不是最佳選擇。我們?yōu)?Senna-VLM 提出了一種三階段訓練策略,包括混合數(shù)據(jù)預訓練、駕駛通用微調(diào)和駕駛決策微調(diào)。實驗結(jié)果表明,我們提出的三階段訓練策略可以實現(xiàn)最佳的規(guī)劃性能。

Senna的關(guān)鍵創(chuàng)新

在模型層面,Senna提出層次化的規(guī)劃策略,可以充分利用大模型的常識知識和邏輯推理能力,生成準確的決策指令,并通過端到端模型生成具體的軌跡。另外,Senna設計了針對環(huán)視和多圖的策略,通過圖像token壓縮和精心設計的環(huán)視prompt,有效提高了多模態(tài)大模型對駕駛場景的理解。

在數(shù)據(jù)方面,我們設計了多種可以大規(guī)模自動標注的面向規(guī)劃的駕駛問答數(shù)據(jù),包括場景描述、交通參與者行為預測、交通信號識別以及自車決策等。這些問答數(shù)據(jù)對于Senna生成準確的決策起到了關(guān)鍵作用。

在訓練層面,我們提出三階段的大模型訓練策略,不僅提升了Senna在駕駛場景的表現(xiàn),且有效保留了其常識知識而不至于出現(xiàn)模式坍塌的問題。

Senna的實驗及應用效果

基于多個數(shù)據(jù)集上的大量實驗表明Senna 實現(xiàn)了state-of-the-art的規(guī)劃性能。實驗結(jié)果的亮點在于,通過使用在大規(guī)模數(shù)據(jù)集上預訓練的權(quán)重并進行微調(diào),Senna 實現(xiàn)了顯著的性能提升,與沒有預訓練的模型相比,平均規(guī)劃誤差大幅降低了27.12% ,碰撞率降低了33.33%,這些結(jié)果驗證了 Senna 提出的結(jié)構(gòu)化的決策規(guī)劃策略、模型結(jié)構(gòu)設計和訓練策略的有效性。Senna強大的跨場景泛化性和可遷移能力,展現(xiàn)出成為下一代通用智駕大模型的潛力。

未來探索方向

Senna初步探索并驗證了基于語言化的決策將大模型和端到端模型結(jié)合的可行性。下一步,我們將利用更精細的語言決策,并基于決策信息以可控的方式實現(xiàn)個性化的軌跡規(guī)劃,并在可解釋性、閉環(huán)驗證等方面進一步探索優(yōu)化。相信Senna將會激發(fā)行業(yè)在該領(lǐng)域的進一步研究和突破。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能駕駛
    +關(guān)注

    關(guān)注

    4

    文章

    2814

    瀏覽量

    49956
  • 自動駕駛
    +關(guān)注

    關(guān)注

    789

    文章

    14318

    瀏覽量

    170618
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3141

    瀏覽量

    4066

原文標題:下一代“多模態(tài)大模型+端到端”架構(gòu)Senna:開創(chuàng)智駕決策規(guī)劃全新范式

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛中基于規(guī)則的決策和模型有何區(qū)別?

    自動駕駛架構(gòu)的選擇上,也經(jīng)歷了從感知、決策控制、執(zhí)行的三段式架構(gòu)到現(xiàn)在火熱的模型,尤其是在2024年特斯拉推出FSD V12后,各
    的頭像 發(fā)表于 04-13 09:38 ?2907次閱讀
    <b class='flag-5'>自動駕駛</b>中基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何區(qū)別?

    自動駕駛真的會來嗎?

    所需要的圖像識別、計算機視覺、深度學習等關(guān)鍵技術(shù)的投資熱度在明顯增強。另外,也已經(jīng)有公司在開發(fā)不同于普通地圖的3D地圖,能詳細道路旁邊的電線桿的位置,以及與下一個油桶、燈柱距離。對于自動駕駛的發(fā)展
    發(fā)表于 07-21 09:00

    如何基于深度神經(jīng)網(wǎng)絡設計一個自動駕駛模型?

    如何基于深度神經(jīng)網(wǎng)絡設計一個自動駕駛模型?如何設計一個基于增強學習的自動駕駛決策系統(tǒng)?
    的頭像 發(fā)表于 04-29 16:44 ?5296次閱讀
    如何基于深度神經(jīng)網(wǎng)絡設計一個<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>自動駕駛</b><b class='flag-5'>模型</b>?

    自動駕駛到底是什么?

    UniAD 統(tǒng)一自動駕駛關(guān)鍵任務,但是的訓練難度極大,對數(shù)據(jù)的要求和工程能力的要求比常規(guī)的技術(shù)棧要高,但是由此帶來的全局一致性讓整個系統(tǒng)變得更加簡潔,也能夠防止某個模塊進入局部最
    發(fā)表于 06-28 14:47 ?4309次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>到底是什么?

    理想汽車自動駕駛模型實現(xiàn)

    理想汽車在感知、跟蹤、預測、決策和規(guī)劃等方面都進行了模型化,最終實現(xiàn)了模型。這種模型不僅
    發(fā)表于 04-12 12:17 ?711次閱讀
    理想汽車<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>實現(xiàn)

    理想汽車加速自動駕駛布局,成立“”實體組織

    近期,理想汽車在其智能駕駛領(lǐng)域邁出了重要一步,正式成立了專注于“自動駕駛”的實體組織,該組織規(guī)模超過200人,標志著理想在
    的頭像 發(fā)表于 07-17 15:42 ?1613次閱讀

    實現(xiàn)自動駕駛,唯有?

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?1519次閱讀
    實現(xiàn)<b class='flag-5'>自動駕駛</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    Mobileye自動駕駛解決方案的深度解析

    自動駕駛技術(shù)正處于快速發(fā)展之中,各大科技公司和汽車制造商均在爭相布局,試圖在這個新興領(lǐng)域占據(jù)一席之地。Mobileye作為全球自動駕駛技術(shù)的領(lǐng)軍企業(yè)之一,憑借其獨特的
    的頭像 發(fā)表于 10-17 09:35 ?837次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>解決方案的深度解析

    Waymo利用谷歌Gemini大模型,研發(fā)端自動駕駛系統(tǒng)

    邁新步,為其機器人出租車業(yè)務引入了一種基于谷歌多模態(tài)大語言模型(MLLM)“Gemini”的全新訓練模型——“
    的頭像 發(fā)表于 10-31 16:55 ?1722次閱讀

    自動駕駛技術(shù)研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入202
    的頭像 發(fā)表于 12-19 13:07 ?891次閱讀

    DiffusionDrive首次在自動駕駛中引入擴散模型

    ? ? 近年來,自動駕駛成為研究熱點,其核心在于從傳感器數(shù)據(jù)直接學習駕駛決策。然而,駕駛
    的頭像 發(fā)表于 03-08 13:59 ?885次閱讀
    DiffusionDrive首次在<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>中引入擴散<b class='flag-5'>模型</b>

    一文帶你厘清自動駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設計思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)
    的頭像 發(fā)表于 05-08 09:07 ?292次閱讀
    一文帶你厘清<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    數(shù)據(jù)標注方案在自動駕駛領(lǐng)域的應用優(yōu)勢

    10-20TB,其中需要標注的數(shù)據(jù)占比超過60%。在這樣的背景下,數(shù)據(jù)標注方案應運而生,正在重塑自動駕駛的數(shù)據(jù)生產(chǎn)范式。
    的頭像 發(fā)表于 06-23 17:27 ?286次閱讀

    為什么自動駕駛模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)落地,(End-to-End)大模型也成為行業(yè)研究與應用的熱門方向。相較于傳統(tǒng)
    的頭像 發(fā)表于 07-04 16:50 ?214次閱讀
    為什么<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    Nullmax自動駕駛最新研究成果入選ICCV 2025

    近日,國際計算機視覺大會 ICCV 2025 正式公布論文錄用結(jié)果,Nullmax 感知團隊在自動駕駛方向的最新研究成果《HiP-AD
    的頭像 發(fā)表于 07-05 15:40 ?427次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>最新研究成果入選ICCV 2025