99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于擴散模型的視頻生成框架RoboTransfer

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-07-09 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

RoboTransfer

幾何約束&條件可控視頻生成

具身數(shù)據(jù)合成新范式

機器人操作領域,模仿學習是推動具身智能發(fā)展的關鍵路徑,但高度依賴大規(guī)模、高質量的真實演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓練策略的泛化能力與落地應用。

我們提出RoboTransfer一基于擴散模型的視頻生成框架,旨在合成高保真且符合物理規(guī)律的機器人操作演示數(shù)據(jù)。該框架創(chuàng)新性地融合深度-表面法向的幾何約束與多視角特征建模,確保生成視頻具備高度幾何一致性與真實感。通過拆分控制條件設計,實現(xiàn)對操作場景元素(如背景替換、物體外觀)的精細控制。結合物理仿真器重構空間布局與交互狀態(tài),實現(xiàn)多樣化、可拓展的高保真數(shù)據(jù)合成。

RoboTransfer通過數(shù)據(jù)驅動的生成式Ai技術,建立機器人操作數(shù)據(jù)合成新范式,提供高質量、可擴展的演示數(shù)據(jù),助力具身智能突破通用性與泛化性邊界。

近年來,隨著人工智能從感知智能向決策智能演進,世界模型 (World Models)逐漸成為機器人領域的重要研究方向。世界模型旨在讓智能體對環(huán)境進行建模并預測未來狀態(tài),從而實現(xiàn)更高效的規(guī)劃與決策。

與此同時,具身數(shù)據(jù)也迎來了爆發(fā)式關注。因為目前具身算法高度依賴于大規(guī)模的真實機器人演示數(shù)據(jù),而這些數(shù)據(jù)的采集過程往往成本高昂、耗時費力,嚴重限制了其可擴展性和泛化能力。盡管仿真平臺提供了一種相對低成本的數(shù)據(jù)生成方式,但由于仿真環(huán)境與真實世界之間存在顯著的視覺和動力學差異 (即sim-to-real gap) ,導致在仿真中訓練的策略難以直接遷移到真實機器人上,從而限制了其實際應用效果。因此如何高效獲取、生成和利用高質量的具身數(shù)據(jù),已成為當前機器人學習領域的核心挑戰(zhàn)之一。

近日,地平線、極佳科技與中國科學院自動化研究所等單位提出RoboTransfer,基于擴散模型的視頻生成框架,可以用于擴充機器人策略模型的訓練數(shù)據(jù)。得益于合成數(shù)據(jù)的多樣性,下游策略模型能夠在新場景下取得251%的顯著提升,大幅提升策略模型的泛化性,為具身智能的通用性與泛化性奠定了堅實的基礎。

?論文鏈接:

https://arxiv.org/pdf/2505.23171

? 項目主頁:

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿學習 (Imitation Learning) 已成為機器人操作領域的重要方法之一。通過讓機器人“模仿”專家示教的行為,可以在復雜任務中快速構建有效的策略模型。然而,這類方法通常依賴大量高質量的真實機器人演示數(shù)據(jù),而數(shù)據(jù)采集過程成本高、周期長,嚴重制約了其擴展性和泛化能力。

為了解決上述問題,本項工作提出了RoboTransfer,一種基于擴散模型 (diffusion model) 的視頻生成框架,旨在實現(xiàn)高質量的機器人操作場景數(shù)據(jù)合成。不同于傳統(tǒng)的仿真方法或現(xiàn)有生成模型,RoboTransfer融合了多視角幾何信息,并對場景中的關鍵組成成分(如背景、物體屬性等)實現(xiàn)了顯式控制。具體而言,RoboTransfer通過引入跨視角特征交互機制以及全局深度圖與法向圖作為條件輸入,確保生成視頻在多個視角下的幾何一致性。此外,該框架支持細粒度的編輯控制,例如更換背景、替換目標物體等,從而能夠靈活地生成多樣化、結構合理的視覺數(shù)據(jù)。

實驗結果表明,RoboTransfer能夠生成具有高幾何一致性和視覺質量的多視角視頻序列。此外,使用RoboTransfer合成數(shù)據(jù)訓練的機器人視覺策略模型,在標準測試任務中表現(xiàn)出顯著提升的性能:在更換前景物體的場景下取得了33.3%的成功率相對提升,在更具挑戰(zhàn)性的場景下(同時更換前景背景)更是達到了251%的顯著提升。

RoboTransfer的整體框圖如下,為了在視頻生成過程中保證多視角之間的一致性,RoboTransfer引入了多視角一致性建模機制,使得生成過程能夠聯(lián)合不同視角的信息進行推理,從而提升生成結果的空間連貫性與視覺合理性。

此外,在控制條件的設計方面,RoboTransfer通過將控制信號解耦為幾何信息與外觀(紋理)信息兩個部分,實現(xiàn)了對生成內容的細粒度控制。具體來說,在幾何控制方面,采用深度圖 (depth map) 和表面法向圖 (surface normal map) 等具有強結構約束的表示方式,來引導生成視頻中物體的三維空間結構,確保在不同視角下生成內容的幾何一致性。而在外觀控制方面,模型利用參考背景圖像和目標物體的參考圖像作為輸入條件,這些圖像經過編碼后能夠有效保留原始場景的色彩、紋理以及上下文信息,從而在生成過程中維持物體外觀的細節(jié)還原能力。

在實驗部分,RoboTransfer證明可以通過real-to-real,以及sim-to-real兩種方式實現(xiàn)數(shù)據(jù)增廣,并訓練下游的策略模型提升其性能。

real-to-real數(shù)據(jù)增廣

基于真機采集的真實視頻數(shù)據(jù),可從中提取結構化信息作為控制條件,通過調整背景桌面與前景物體的控制參數(shù),實現(xiàn)新場景數(shù)據(jù)的合成。如下圖所示,左側為真實采集的數(shù)據(jù)及其對應的結構化信息,右側為合成結果,實驗表明RoboTransfer能夠靈活地實現(xiàn)背景桌布的替換。

改變前景:下圖所示第一行為真機采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為前景物體的控制條件,第五行為合成數(shù)據(jù),第六行為背景桌布控制條件。以下實驗結果表明RoboTransfer可以實現(xiàn)對前景物體外表編輯的功能,豐富生成數(shù)據(jù)的多樣性,提升策略模型的訓練質量。

sim-to-real數(shù)據(jù)增廣

RoboTransfer不僅可以改變真機數(shù)據(jù)的前景和背景,還可以實現(xiàn)對仿真數(shù)據(jù)的重新渲染。利用仿真數(shù)據(jù)中的結構化信息以及真實場景的物體和背景作為控制條件,RoboTransfer可以將仿真數(shù)據(jù)的轉化為逼真的真實數(shù)據(jù),極大地降低sim-to-real之間的gap,為通用機器人的訓練提供了一個新的范式。以下是兩個不同的仿真場景重新渲染的實驗結果,左側是疊碗,右側是放置杯子,其中第一行為仿真采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為合成數(shù)據(jù),第五行為背景參考圖。

對比實驗結果

與其他SOTA方法的對比可以發(fā)現(xiàn),RoboTransfer在時序一致性以及多視角之間的一致性上都要顯著優(yōu)于其他方法。

定量實驗的實驗結果如下表所示,實驗表明對于生成數(shù)據(jù)的前背景增廣可以顯著提升策略模型在新場景下的成功率,其中對于前背景完全改變的新場景,前背景的數(shù)據(jù)增廣能夠讓策略模型獲得251%的性能提升。

c2a14bca-57f5-11f0-baa5-92fbcf53809c.png

表1:數(shù)據(jù)增廣對于策略模型在不同setting下的提升

總體來說,該方法構建了數(shù)據(jù)處理流程,可以生成包含幾何和外觀控制條件的三元組數(shù)據(jù),以訓練基于擴散模型的機器人數(shù)據(jù)合成框架RoboTransfer。實驗和評估結果顯示,RoboTransfer能夠生成具有多視角一致、幾何一致的數(shù)據(jù),并且可以根據(jù)參考圖像修改前景和背景紋理。生成的數(shù)據(jù)用于訓練機器人操作策略,從而顯著提升了策略模型的泛化能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29730

    瀏覽量

    212830
  • 視頻
    +關注

    關注

    6

    文章

    1972

    瀏覽量

    73915
  • 模型
    +關注

    關注

    1

    文章

    3519

    瀏覽量

    50411

原文標題:開發(fā)者說|RoboTransfer:幾何一致視頻世界模型,突破機器人操作泛化邊界

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    4K、多模態(tài)、長視頻:AI視頻生成的下個戰(zhàn)場,誰在領跑?

    電子發(fā)燒友網報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可
    的頭像 發(fā)表于 06-16 00:13 ?6241次閱讀

    《AI Agent 應用與項目實戰(zhàn)》----- 學習如何開發(fā)視頻應用

    開發(fā)視頻內容生成Agent。 訪問語聚AI平臺官網 ,進行注冊或登錄。 在平臺首頁,了解語聚AI的功能和應用場景,特別是其支持的視頻生成相關的AI
    發(fā)表于 03-05 19:52

    字節(jié)跳動即將推出多模態(tài)視頻生成模型OmniHuman

    字節(jié)跳動旗下站式AI創(chuàng)作平臺即夢AI即將迎來重大更新,全新多模態(tài)視頻生成模型OmniHuman即將上線。這款模型是字節(jié)跳動自研的閉源模型,
    的頭像 發(fā)表于 02-08 10:53 ?750次閱讀

    阿里云通義萬相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬相迎來了重要升級,正式推出了全新的萬相2.1視頻生成模型。這創(chuàng)新成果標志著阿里云在視頻生成技術領域的又次重大突破
    的頭像 發(fā)表于 01-13 10:00 ?826次閱讀

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型能夠基于文本和圖像生成視頻,引發(fā)了廣泛關
    的頭像 發(fā)表于 12-20 14:23 ?526次閱讀

    中國電信發(fā)布自研視頻生成模型

    ,中國電信隆重發(fā)布了首個由央企全自研的視頻生成模型。該模型采用了創(chuàng)新的“VAST(Video As Storyboard from Text)二階段視頻生成技術”,實現(xiàn)了從文本描述到
    的頭像 發(fā)表于 12-13 15:40 ?546次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這新品的發(fā)布,無疑為AI技術注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發(fā)表于 12-12 09:40 ?708次閱讀

    OpenAI開放Sora視頻生成模型

    升級,準備迎接廣大用戶的深入探索與廣泛應用。 據(jù)官方公告介紹,Sora Turbo作為Sora的升級版本,具備強大的視頻生成能力。它能夠根據(jù)用戶的文本提示,快速創(chuàng)建出最長達20秒的高清視頻片段。更令人驚喜的是,Sora Turbo還能針對同
    的頭像 發(fā)表于 12-10 11:16 ?737次閱讀

    騰訊混元大模型上線并開源文生視頻能力

    近日,騰訊宣布其混元大模型正式上線,并開源了項令人矚目的能力——文生視頻。該大模型參數(shù)量高達130億,支持中英文雙語輸入,為用戶提供了更為便捷和多樣化的
    的頭像 發(fā)表于 12-04 14:06 ?531次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這舉措標志著字節(jié)跳動在AI視頻領域邁出了堅實的
    的頭像 發(fā)表于 11-11 14:31 ?695次閱讀

    智譜視頻生成模型清影升級,開啟有聲電影新時代

    近日,智譜公司的視頻生成模型產品——清影,迎來了重要升級。此次升級后,清影能夠支持生成10秒、4K分辨率、60幀的超高清視頻,并且極大地提升了人物表演的細節(jié)表現(xiàn)。這
    的頭像 發(fā)表于 11-11 11:40 ?742次閱讀

    今日看點丨Vishay裁員800人,關閉上海等三家工廠;字節(jié)跳動發(fā)布兩款視頻生成模型

    企業(yè)市場開啟邀測。 ? 火山引擎介紹,豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,能更充分地壓縮編碼視頻與文本,讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、
    發(fā)表于 09-25 15:48 ?952次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這舉措標志著火山引擎在視頻內容生成領域邁出了重要
    的頭像 發(fā)表于 09-25 14:11 ?642次閱讀

    阿里通義將發(fā)布視頻生成模型

    在即將召開的云棲大會上,阿里通義將震撼發(fā)布其自主研發(fā)的視頻生成模型。目前,用戶已可通過通義App頻道及通義萬相PC端預約體驗這創(chuàng)新功能,盡管具體使用尚未開放。
    的頭像 發(fā)表于 09-19 17:01 ?608次閱讀

    阿里首推AI視頻生成利器Tora:指尖畫圈,自由操控物體運動軌跡

    近日,阿里巴巴團隊震撼發(fā)布了項革命性的創(chuàng)新成果——Tora,個前所未有的AI視頻生成框架。Tora深度融合了文本、視覺與軌跡條件,依托其獨創(chuàng)的軌跡導向
    的頭像 發(fā)表于 08-06 16:41 ?1417次閱讀