近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結(jié)果,格靈深瞳團隊共有6篇論文入選。
作為CV領(lǐng)域最具國際影響力的三大頂級會議之一,本屆ICCV競爭十分激烈。據(jù)公開信息,今年大會共收到11239份有效投稿,數(shù)量為史上最多。經(jīng)過評審后,僅接受2698篇論文,錄用率為24%。
格靈深瞳此次入選的6篇論文,涉及視覺基座模型、人臉3D重建、文檔幾何校正、人體動作生成、魯棒三維重建等多個視覺AI研究關(guān)鍵方向,展現(xiàn)了格靈深瞳深耕多年的核心技術(shù)積累和前沿創(chuàng)新實力,每一項成果都具有前瞻的科研價值和實際應用意義。
此次入選的6篇論文核心內(nèi)容如下:
視覺基座模型
格靈深瞳與華為諾亞研究院合作的論文Region-based Cluster Discrimination for Visual Representation Learning中稿,其創(chuàng)新性在于,通過引入?yún)^(qū)域Transformer層和高效的區(qū)域聚類判別損失,有效提升視覺模型對局部區(qū)域信息的感知與表達能力,使其在OCR、目標檢測和分割等密集視覺任務中表現(xiàn)突出。
同時,RICE采用大規(guī)模候選區(qū)域數(shù)據(jù)集,統(tǒng)一目標識別與OCR學習。在多項下游任務中,RICE均優(yōu)于SigLIP2、AIMv2,無需顯式語言監(jiān)督,即可成為強大的多模態(tài)視覺大模型基座,展現(xiàn)出卓越的通用性和擴展?jié)摿Α?/p>
人臉3D重建、膚色估計
格靈深瞳與悉尼科技大學、浙江大學、帝國理工學院合作的HUST,方法創(chuàng)新性體現(xiàn)在:無需昂貴的光場采集數(shù)據(jù),僅憑單張圖片即可實現(xiàn)高保真、無偏見的人臉漫反射反照率重建。
該論文通過提出“反照率即去光照紋理”的新見解,結(jié)合VQGAN預訓練和有限UV紋理微調(diào),模型有效利用大規(guī)模高分辨率人臉數(shù)據(jù)??缈臻g自適應與群體身份損失實現(xiàn)域遷移,提升了不同膚色的泛化能力。HUST在FAIR基準上取得了當前最優(yōu)的準確性和公平性指標。
文檔幾何校正
格靈深瞳與360移動算法部合作的ForCenNet,其創(chuàng)新性體現(xiàn)在:提出了前景為中心的標簽生成方法和掩碼機制,顯著提升了對文檔可讀區(qū)域的幾何校正能力。
同時,該論文方法設(shè)計了曲率一致性損失,有效約束線性結(jié)構(gòu)的變形,提升了校正精度。實驗結(jié)果表明方法在多個真實基準上均取得了新的最優(yōu)表現(xiàn)。
人體動作生成
格靈深瞳與浙江大學合作的MotionStreamer,提出了一種全新的流式人體動作生成框架。通過在連續(xù)的因果潛空間中進行自回歸,并使用擴散模型建模每個潛在變量的概率分布,實現(xiàn)高效的流式生成。
流式框架天然支持多輪交互式動作生成、長序列動作生成、動態(tài)動作組合等多種應用。
人體動作生成
格靈深瞳與浙江大學合作的Motion-2-to-3,創(chuàng)新性地使用大量的人類二維視頻,以提升文本驅(qū)動的三維運動生成。研究通過解耦局部關(guān)節(jié)運動與全局運動,從二維數(shù)據(jù)高效學習局部運動先驗。先在大規(guī)模文本-二維運動數(shù)據(jù)集上訓練單視角生成器,再用三維數(shù)據(jù)微調(diào)為多視角生成器,預測視角一致的局部關(guān)節(jié)運動和根節(jié)點動態(tài)。
實驗表明,該方法能高效利用二維數(shù)據(jù),生成更廣泛,更多類型的真實三維人體運動,為相關(guān)行業(yè)帶來新機遇。
魯棒三維重建
格靈深瞳與浙江大學合作的UniVerse,首次將視頻擴散模型引入到魯棒3D重建中,通過先把不一致的多視圖圖像轉(zhuǎn)化為一致視頻幀,再進行高質(zhì)量神經(jīng)場重建,有效解耦了“修復”和“重建”兩大任務。
近年來,格靈深瞳大力投入視覺基礎(chǔ)模型、多模態(tài)大模型等AI核心技術(shù)研發(fā),積極與各大高校、企業(yè)開展研究合作,聚合產(chǎn)學研力量,促進學術(shù)深度交流。此次亮相國際頂級學術(shù)平臺,是對團隊科研實力與成果的檢驗和肯定。
未來,格靈深瞳將持續(xù)發(fā)力前沿技術(shù)創(chuàng)新研究,促進科研成果轉(zhuǎn)化應用,引領(lǐng)行業(yè)共同發(fā)展進步。
-
計算機
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90829 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50441 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
62瀏覽量
5725
原文標題:格靈深瞳6篇論文亮相國際頂級學術(shù)舞臺,涵蓋視覺基座模型、人臉3D重建等領(lǐng)域
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論