3月17日下午,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、商湯絕影CEO王曉剛在NVIDIA GTC 2025發(fā)表演講《激發(fā)通用人工智能的創(chuàng)造力,引領(lǐng)智能汽車走向全新的未來》,以下為演講實錄:
各位開發(fā)者朋友大家好,我是絕影智能的王曉剛,感謝英偉達GTC活動的邀請,也非常感謝各位對絕影的關(guān)注與支持。
絕影智能是最專注汽車行業(yè)領(lǐng)先的AI公司,旨在推動智能汽車加速駛?cè)胪ㄓ萌斯ぶ悄軙r代。今天我想給大家分享絕影如何激發(fā)通用人工智能的創(chuàng)造力,引領(lǐng)智能汽車走向全新未來。
我常常在想AGI時代下的未來汽車出行是怎樣的。它應(yīng)該是可以實現(xiàn)更為自然的有溫度的人車交互體驗,讓智能汽車從出行代步工具,進化為你的情感陪伴;同時它還要具備實現(xiàn)安全自動駕駛的能力,解放你的身心束縛,讓你的時間和精力都可以投入到與世界的連接中,盡情享受大千世界的無限可能。
因此,我認為AGI賦能下為智能汽車帶來的變革主要在三方面:
第一是通過原生流式多模態(tài)大模型帶來的人機交互體驗的變革;第二是通過端到端智駕技術(shù)的升級,帶來極致自動駕駛安全和效率;第三是艙駕融合驅(qū)動智能汽車往超級智能體方向演進,極大拓展了人與物理和數(shù)字世界的連接。
而引領(lǐng)智能汽車變革的核心驅(qū)動力,在于艙駕融合的AI域。絕影和英偉達深度合作,構(gòu)建艙駕融合的三大核心要素,包括可支持艙駕融合的超大算力引擎,行業(yè)領(lǐng)先的原生流式多模態(tài)大模型,以及端云一體協(xié)同的部署框架。
依托英偉達算力引擎,絕影首創(chuàng)艙駕融合AI域框架。
該框架包括三層,首先是最下面的算力層,它是依托NVIDIA車端計算平臺DRIVE AGX及云端AI計算平臺共同打造的強大算力引擎;中間是系統(tǒng)層,它包括以多模態(tài)和端到端為核心的車端大模型,和以世界模型和大語言模型為核心的云端大模型。
基于端云協(xié)同的部署模式,配合絕影自研的模型服務(wù)框架及工具,實現(xiàn)系統(tǒng)性能的全量釋放,有效支撐最上面的應(yīng)用層如自動駕駛、多模態(tài)交互、全時陪伴助理等多樣化的整車級智能化生態(tài)應(yīng)用。
為打造領(lǐng)先的艙駕融合AI域,首先我們需要構(gòu)建超大算力引擎,以賦能艙駕多元化的智能應(yīng)用。NVIDIA Drive AGX平臺超大算力引擎技術(shù)支持雙芯方案,可實現(xiàn)大算力的翻倍擴展,提供安全的多域計算能力。
絕影在此基礎(chǔ)上根據(jù)功能相關(guān)性和功能安全等級的不同劃分出不同域,實現(xiàn)車身控制、端到端自動駕駛模型、多模態(tài)大模型、端到端語音模型等不同功能模型間的隔離保障,保障整車安全。
同時,超大算力引擎還具有高帶寬的特點,可容納約7個8B模型同時運行,配合絕影設(shè)計的AI Runtime Bus使得不同功能域運行的各個大模型在保障安全隔離的情況下也能高效通信。
扎實的系統(tǒng)支撐是基礎(chǔ),而強大的模型能力能為車載應(yīng)用開發(fā)帶來無限可能。
絕影專為車載場景定制化打造的原生流式多模態(tài)大模型,以其全場景多模感知、理解和推理能力,讓智能汽車有了類似人類的視覺、聽覺和觸覺能力,可將真實世界里包括語言、語音語調(diào)、表情、車載信號等豐富的模態(tài)信息以端到端優(yōu)化的方式,準確感知和理解,并在OpenCompass多模態(tài)評測榜單中取得了第一的成績。
在應(yīng)用部署上,絕影制定了端云協(xié)同的部署策略,通過意圖分流來進行任務(wù)在端云兩側(cè)的協(xié)同,當(dāng)前場景任務(wù)有80%是在端側(cè)處理。端云協(xié)同的方式可覆蓋廣泛的場景交互,保證安全可靠、實時響應(yīng),并充分保障個人隱私安全。
艙駕融合的AI域打開了智能汽車的性能上限,是引領(lǐng)智能汽車走向AGI時代的必由之路。而絕影為加速智能汽車駛?cè)階GI時代,也在“艙-駕-云”三方面打磨出了行業(yè)領(lǐng)先的技術(shù)與產(chǎn)品解決方案。
在智能座艙領(lǐng)域,絕影將推動其實現(xiàn)自我“叛逆”的進化。
慣性認知里,大家認為車機就應(yīng)該是聽話和服從的。叛逆的進化,代表的是積極自主性,而不是對抗。這就是絕影為新一代智能座艙的人機交互打造的積極自主的座艙情感引擎「A New Member For U」,你的家庭新成員!
這個家庭成員,有三大特點:“察言觀色”“無時不在”“與你心有靈犀”。
讓我們來感受一下它的魅力。
我們的New Member不是一個聽話的工具,循規(guī)蹈矩的助手,而是提供主動溫暖關(guān)懷的“新成員”。比如,它會提醒小朋友少吃糖。他會主動學(xué)習(xí),記得你的習(xí)慣、你的偏好。理解你,伴隨你成長。
「A New Member For U」,它將會成為你的家庭新成員!
絕影的座艙情感引擎New Member背后依靠的是我們的三大技術(shù)支撐:分別是車載類人記憶框架、持續(xù)運行框架和多模態(tài)大模型服務(wù)。
那我們先來講講車載類人記憶框架。在現(xiàn)實生活中,人和人是通過每一刻發(fā)生在你我之間的事情,產(chǎn)生了記憶,讓人和人之間產(chǎn)生了情感。不然你就不會記得別人是誰,人與人不會有鏈接。汽車也一樣。如果沒有記憶,就只是一個工具或助手,不會跟你有真正情感上的鏈接。
真正的智能汽車,必須要有記憶,才能與你心有靈犀!
絕影的汽車類人記憶框架,通過將“臨時記憶”和“長期記憶”融合形成“場景記憶”,做到重要信息的高效提取,為特定場景的決策和行動提供依據(jù),賦予智能汽車真正的記憶能力。
我們的車載類人記憶框架,覆蓋人、車、物、環(huán)境四大類別,總共100多個記憶維度。動態(tài)記憶檢索,可以做到毫秒級!并且具有自成長的記憶迭代能力!
都說陪伴是最長情的告白,只有一直在你身邊,無時不在地為你準備著,才算是一個合格的NEW MEMBER。
絕影業(yè)內(nèi)首創(chuàng)的Always-on持續(xù)運行框架,能做到零拷貝傳輸,并支持持續(xù)推理,推理速度高達96 tokens每秒,真正實現(xiàn)實時響應(yīng)復(fù)雜場景。
絕影的New Member之所以能取得如此優(yōu)異的性能,背后得益于絕影基于英偉達軟硬件能力開發(fā)出的新一代的AI推理加速引擎,它對于提升AI系統(tǒng)的性能和效率至關(guān)重要。
絕影聯(lián)合英偉達在算子開發(fā)、模型量化、精度支持等關(guān)鍵技術(shù)進行了一系列的深度開發(fā)與創(chuàng)新,從而實現(xiàn)GPU利用率從35%提升至 85%、低精度計算速度提升4倍、更長的視覺文本支持等一系列成績。
下面我來具體展示絕影AI加速引擎的關(guān)鍵技術(shù):
第一個是絕影的Flash-decoding++技術(shù),它可以充分利用空閑計算單元,極大提高解碼過程中并行的效率,從而在處理長文本的速度上提高超50%的效果。
第二個是絕影使用先進的Segment Prefill方案研發(fā)的一圖多問能力,使得多張圖片的多個問題盡可能復(fù)用先前計算的token,從而大幅度提升系統(tǒng)吞吐效果,將querys延遲性能提升超75%。
第三個是絕影的continue batching方案,在NVIDIA Drive AGX端側(cè)芯片上提升系統(tǒng)QPS能力,支持同一時間高效處理多達76個請求。實現(xiàn)用戶駕駛體驗提升的同時,還確保了行車過程中的安全性和便利性。
在保障以上技術(shù)性能領(lǐng)先的過程中,絕影對保障數(shù)據(jù)隱私的關(guān)注是始終不變的重要考慮。在保護用戶隱私上,我們有三個原則:數(shù)據(jù)跟人走、隱私數(shù)據(jù)不出車、不該說的不說。并且我們還打造了隱私保護體系,確保用戶隱私滴水不漏。
如果說,A New Member For U,給智艙以溫度,讓每一次出行溫暖愉悅。那么智能駕駛,會讓我們的出行更自由。
絕影最早在2022年提出行業(yè)首個端到端架構(gòu)UniAD,并獲得了CVPR 2023最佳論文的認可。這是我們的UniAD技術(shù)的實車部署,在復(fù)雜路況下也能實現(xiàn)卓越的行駛效果。它不依賴高精地圖,也不依賴激光雷達,僅通過7個攝像頭的低成本傳感器方案,就能夠以老司機的實力靈活在各種復(fù)雜場景中穿梭自如,獲得「類人」駕駛體驗。
去年11月,絕影正式發(fā)布了基于全球領(lǐng)先端到端UniAD技術(shù)打造的,量產(chǎn)端到端智駕方案。這個方案基于NVIDIA Drive AGX平臺的MIG技術(shù),實現(xiàn)了端到端和傳統(tǒng)規(guī)則的雙系統(tǒng)實時運行,助力更好的對行車過程中的問題進行及時校驗和處理。
影在此基礎(chǔ)上充分發(fā)揮雙系統(tǒng)協(xié)同的作用,設(shè)計了首個量產(chǎn)級的、極致安全的端到端智駕解決方案,能在保障整體對復(fù)雜場景交互的基礎(chǔ)上,保障行車安全。
同時在NVIDIA Drive AGX的高精度支持和絕影的方案設(shè)計配合下,模型不需要轉(zhuǎn)成整形運算就可以直接運行,避免了量化過程導(dǎo)致的精度損失,提升了開發(fā)迭代效率,有效縮短開發(fā)周期。目前我們正和中國某頭部車廠合作量產(chǎn)UniAD解決方案的量產(chǎn)落地。
同時,我們還研發(fā)了新一代融合多模態(tài)大模型的端到端智駕方案,依托多模態(tài)大模型強大的感知和推理能力,能夠更好的應(yīng)對復(fù)雜場景,不斷提升整車智能的上限。
數(shù)據(jù)驅(qū)動的端到端技術(shù)的演進,需要海量高質(zhì)量數(shù)據(jù)的支撐。當(dāng)前特斯拉擁有超7百萬輛高階智駕量產(chǎn)車來實現(xiàn)數(shù)據(jù)回傳,中國車廠與特斯拉相比具有一個數(shù)量級的差距,想要追趕上必須要通過全新的模式來革新數(shù)據(jù)基礎(chǔ)設(shè)施。
絕影依托在自動駕駛和多模態(tài)大模型領(lǐng)域的積累,在去年年底絕影日上率先提出用量產(chǎn)實車采集真實數(shù)據(jù),用世界模型生成仿真數(shù)據(jù),形成雙輪驅(qū)動,“車云一體”的數(shù)據(jù)閉環(huán)新范式。
基于英偉達云端算力引擎,絕影打造了行業(yè)領(lǐng)先的世界模型“開悟”。
“開悟”可以理解真實世界中的“物理法則”和“交通規(guī)則”,并在此基礎(chǔ)上,能夠生成“準確”的場景,具體來說,我們生成的視頻,是11V時空一致的,時間最長可以達到150秒,分辨率能夠達到1080P;同時,“開悟”生成的場景也是可控的,能細微到“元素級別”,生成場景非常精細,完全滿足端到端模型訓(xùn)練和仿真對于數(shù)據(jù)質(zhì)量的高要求。
大家可以先看一下我們的世界模型生成的視頻。這些視頻里面,晴天下周邊環(huán)境的投影、夜間車輛近光燈的投射,都符合物理法則,真實呈現(xiàn)。這是因為「開悟」通過海量數(shù)據(jù)學(xué)習(xí),懂得了光學(xué)原理這些物理法則。同時,「開悟」還學(xué)會了交通規(guī)則,視頻中的車輛剎車時會適當(dāng)保持車距,在交通信號燈的指示下合理啟停。
真實只是基礎(chǔ),世界模型要生成更加準確場景,需要保證多視角的時空一致性。這是「開悟」,行人車輛3D框和時空軌跡,作為精準的輸入控制信號,生成的11V視頻數(shù)據(jù)。
同時生成的視角越多,要保持時空一致性就越難,而這11V視角還包括了4個魚眼攝像頭,模型要準確仿真出魚眼視角的畸變?!搁_悟」做到了11V,可以靈活滿足從1V到11V的各類場景的訓(xùn)練需求。
「開悟」生產(chǎn)數(shù)據(jù)的效率很高。對比行業(yè)平均水平,我們進行了一個測算,基于1張 A100 GPU,「開悟」世界模型平均每天可以生成大約20,000個bundle,相當(dāng)于10臺真值車,或100臺路測車的數(shù)據(jù)采集能力,比得上500臺量產(chǎn)車的效率。
此外,「開悟」能夠支撐端到端智駕系統(tǒng)迭代的數(shù)據(jù)閉環(huán),構(gòu)建“與自車實時互動”的閉環(huán)仿真環(huán)境。
具體方案是,第一步,是路測新問題的發(fā)現(xiàn),右上角邊的視頻就是我們在測試中,發(fā)現(xiàn)車輛向左并線是更好的選擇,但它沒有這么做,需要訓(xùn)練優(yōu)化,我們先用仿真,精準還原了這個場景。
第二步,針對失效案例,生成端到端訓(xùn)練數(shù)據(jù)。中間部分能看到,我們依賴世界模型中仿真智能體,實現(xiàn)足夠多樣化和真實的場景推演和專家軌跡生成,生成并線博弈場景數(shù)據(jù)、專家軌跡數(shù)據(jù)、對應(yīng)的訓(xùn)練數(shù)據(jù)。
第三步,進行端到端仿真迭代驗證。我們可以看到,底下的畫面是訓(xùn)練后,在相同場景下,系統(tǒng)選擇向左并線,通行效率提高。
此外,隨著近期基于強化學(xué)習(xí)的大模型訓(xùn)練的思路得到驗證,絕影創(chuàng)造性地提出了“與世界模型協(xié)同交互的端到端技術(shù)路線R-UniAD”。通過“開悟”世界模型生成在線交互的仿真環(huán)境,以此進行端到端模型的強化學(xué)習(xí)訓(xùn)練。基于該范式可以大幅降低端到端模型訓(xùn)練的數(shù)據(jù)門檻,并在充分探索各種可能性的基礎(chǔ)上有望實現(xiàn)遠超人類的駕駛表現(xiàn)。
以右邊的碰撞場景為例,我們可以看到R-UniAD在復(fù)雜交互場景中,通過長思維鏈有效提升推理效果,最終自行領(lǐng)悟到在該場景下如何進行合理避讓,克服了訓(xùn)練前期容易碰撞的問題。
當(dāng)前,基于英偉達平臺,我們領(lǐng)先的艙駕產(chǎn)品,已賦能多家行業(yè)領(lǐng)先車企。
座艙方面,我們已于去年底在某國內(nèi)頭部車企上量產(chǎn)首個座艙情感引擎NewMember,并且能力還將快速迭代升級;智駕方面,全球最佳UniAD端到端技術(shù)的首款車型也將于今年量產(chǎn)落地,敬請大家期待。
面向未來,絕影將與英偉達聯(lián)手構(gòu)建的艙駕融合產(chǎn)品應(yīng)用生態(tài)。在今年,絕影將實現(xiàn)艙駕融合AI域的構(gòu)建,并進行多元化的艙駕融合產(chǎn)品的研發(fā)和打磨。明年,絕影將攜手英偉達完成艙駕融合產(chǎn)品在各大車廠的量產(chǎn)落地,并推動智能汽車向朝著超級智能體持續(xù)進化,加速智能汽車駛?cè)階GI時代。
絕速影領(lǐng),智進未來!讓我們一起奔赴AGI的曠野!
謝謝大家!
-
人工智能
+關(guān)注
關(guān)注
1807文章
49035瀏覽量
249786 -
智能汽車
+關(guān)注
關(guān)注
30文章
3091瀏覽量
108414 -
商湯科技
+關(guān)注
關(guān)注
8文章
564瀏覽量
36805
原文標(biāo)題:王曉剛:商湯絕影引領(lǐng)智能汽車進入AGI時代 | GTC 2025
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
華為陳偉亮相TMC 2025并發(fā)表主題演講
工信部辛國斌到訪上海車展商湯絕影展臺
商湯絕影亮相2025上海車展
時擎科技受邀亮相無錫先進封裝產(chǎn)業(yè)發(fā)展高峰論壇并發(fā)表主題演講

研華科技亮相NVIDIA GTC 2025大會
NVIDIA GTC 2025精華一文讀完 黃仁勛在GTC上的主題演講

黃仁勛GTC2025演講:人工智能的終極形態(tài)物理AI將徹底改變世界

華為李捷亮相MWC 2025并發(fā)表主題演講
NVIDIA GTC 2025大會即將啟幕
華為趙振龍亮相MWC 2025并發(fā)表主題演講
華為陳浩亮相MWC 2025并發(fā)表主題演講
華為李鵬亮相MWC 2025并發(fā)表主題演講
NVIDIA GTC 2025大會預(yù)告
商湯絕影在行業(yè)率先實現(xiàn)原生多模態(tài)大模型的車端部署

評論