我們近期的工作:3D視覺大模型Uni3D在ICLR 2024的評(píng)審中獲得了688分,被選為Spotlight Presentation
在本文中,我們第一次將3D基礎(chǔ)模型成功scale up到了十億(1B)級(jí)別參數(shù)量,并使用一個(gè)模型在諸多3D下游應(yīng)用中取得SoTA結(jié)果。代碼和各個(gè)scale的模型(從6M-1B)均已開源,歡迎大家關(guān)注和使用:
論文:https://https://arxiv.org/pdf/2310.06773
代碼:https://https://github.com/baaivision/Uni3D
我們主要探索了3D視覺中scale up模型參數(shù)量和統(tǒng)一模型架構(gòu)的可能性。在NLP / 2D vision領(lǐng)域,scale up大模型(GPT-4,SAM,EVA等)已經(jīng)取得了很impressive的結(jié)果,但是在3D視覺中模型的scale up始終沒(méi)有成功。我們旨在將NLP/2D中scale up的成功復(fù)現(xiàn)到3D表征模型上。
在這項(xiàng)工作中,我們提出了一個(gè)3D基礎(chǔ)大模型Uni3D,直接將3D backbone統(tǒng)一為ViT(Vision Transformer),以此利用豐富和強(qiáng)大的2D預(yù)訓(xùn)練大模型作為初始化。Uni3D使用CLIP模型中的文本/圖像表征作為訓(xùn)練目標(biāo),通過(guò)學(xué)習(xí)三個(gè)模態(tài)的表征對(duì)齊(點(diǎn)云-圖像-文本)實(shí)現(xiàn)3D點(diǎn)云對(duì)圖像和文本的感知。同時(shí),通過(guò)使用ViT中成功的scale up策略,我們將Uni3D逐步 scale up,訓(xùn)練了從Tiny到giant的5個(gè)不同scale的Uni3D模型,成功地將Uni3D擴(kuò)展到10億級(jí)別參數(shù)。
Uni3D模型不同scale下的參數(shù)量和zero-shot分類結(jié)果
Uni3D在多個(gè)3D任務(wù)上達(dá)到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.
Zero-shot classification
Real-world zero-shot recognition
由于學(xué)到了強(qiáng)大的多模態(tài)表征能力,Uni3D還能夠做一些有意思的應(yīng)用,如point cloud painting(點(diǎn)云繪畫),text/image-based 3D shape retrieval(基于圖像/文本的3D模型檢索),point cloud captioning(點(diǎn)云描述):
Point cloud painting
Image-based 3D shape retrieval
Text-based 3D shape retrieval
Point cloud captioning.
-
3D視覺
+關(guān)注
關(guān)注
4文章
452瀏覽量
28246 -
大模型
+關(guān)注
關(guān)注
2文章
3141瀏覽量
4064
原文標(biāo)題:ICLR 2024 | 高分工作!Uni3D:3D基礎(chǔ)大模型,刷新多個(gè)SOTA!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一種以圖像為中心的3D感知模型BIP3D

使用海爾曼太通/HellermannTyton 3D CAD 模型進(jìn)行快速高效的設(shè)計(jì)
3D打印可以打印那種柔韌性好,能隨意變形的模型嗎?
SciChart 3D for WPF圖表庫(kù)

騰訊混元3D AI創(chuàng)作引擎正式發(fā)布
高分子微納米功能復(fù)合材料3D打印加工介紹

騰訊混元3D AI創(chuàng)作引擎正式上線
uvled光固化3d打印技術(shù)


安寶特產(chǎn)品 安寶特3D Analyzer:智能的3D CAD高級(jí)分析工具

安寶特產(chǎn)品 3D Evolution : 基于特征實(shí)現(xiàn)無(wú)損CAD格式轉(zhuǎn)換


歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

評(píng)論