《自然-通訊》主要發(fā)表自然科學各個領(lǐng)域的高質(zhì)量研究成果,影響因子16.6。

該分布式框架通過學習得到一個圖像數(shù)據(jù)生成器,可以更靈活地生成數(shù)據(jù),進而可替代多中心的真實數(shù)據(jù),用于下游具體機器學習任務的訓練,并具備較強可擴展性。
伴隨大模型快速發(fā)展,Model as a Service(MaaS,模型即服務)正成為一大趨勢。MaaS的大模型需要從海量的、多類型的數(shù)據(jù)中學習通用特征和規(guī)則,從而具備較強的泛化能力。
DSL框架能在保護數(shù)據(jù)隱私的同時,巧妙解決醫(yī)療大模型訓練中常見的數(shù)據(jù)量不足的瓶頸,有效賦能MaaS的大模型訓練。
在這一技術(shù)支撐下,商湯“醫(yī)療大模型工廠”能夠幫助醫(yī)療機構(gòu)更高效、高質(zhì)量地訓練針對不同臨床問題的醫(yī)療大模型,使大模型在醫(yī)療領(lǐng)域的應用半徑得以延伸。
兼顧隱私保護和數(shù)據(jù)共享
創(chuàng)新聯(lián)邦學習模式打造
“數(shù)據(jù)生產(chǎn)工廠”
深度學習模型需要大量且多樣性的數(shù)據(jù)“喂養(yǎng)”。
醫(yī)療領(lǐng)域?qū)τ脩綦[私保護有著極高要求,使得模型訓練的醫(yī)療數(shù)據(jù)在多樣性和標注質(zhì)量上都受到限制,也使多中心的醫(yī)療數(shù)據(jù)收集和醫(yī)療AI模型的開發(fā)迭代面臨較大挑戰(zhàn)。
如何調(diào)和隱私保護和數(shù)據(jù)共享協(xié)作的矛盾?
“聯(lián)邦學習提供了全新的解題思路。聯(lián)邦學習是一種分布式機器學習方法, 可以在不共享數(shù)據(jù)的情況下對多中心的數(shù)據(jù)進行聯(lián)合建模,聯(lián)合學習某一特定應用模型。”
與主流的聯(lián)邦學習模式不同,DSL框架的學習目標是數(shù)據(jù)生成器,而非具體應用的任務模型。
該分布式架構(gòu)由一個位于中央服務器的數(shù)據(jù)生成器和多個位于不同數(shù)據(jù)中心的數(shù)據(jù)鑒別器組成。
在學習過程中,中央生成器負責生成“假”的圖像數(shù)據(jù),并發(fā)送給各個數(shù)據(jù)中心,各個數(shù)據(jù)中心用本地的真實數(shù)據(jù)和“假”數(shù)據(jù)進行對比后將結(jié)果回傳給中央服務器,并基于反饋結(jié)果訓練中央生成器生成更仿真的圖像數(shù)據(jù)。
分布式的合成學習結(jié)束后,中央生成器可作為“數(shù)據(jù)生產(chǎn)工廠”,根據(jù)給定的約束條件(標注)生成高質(zhì)量仿真圖像數(shù)據(jù),從而得到一個由生成數(shù)據(jù)組成的數(shù)據(jù)庫。
該數(shù)據(jù)庫可替代真實數(shù)據(jù),用于下游具體任務的學習,使下游模型的更新迭代不再受到真實數(shù)據(jù)可訪問性制約。同時,該方法通過分布式架構(gòu)和聯(lián)邦學習方式保證中央服務器無需接觸數(shù)據(jù)中心真實數(shù)據(jù),也不需要同步各中心的鑒別器模型,有效保障了數(shù)據(jù)安全和隱私保護。

賦能MaaS新生態(tài)
為醫(yī)療大模型開發(fā)迭代
按下加速鍵
DSL框架已通過多個具體應用的驗證。
包括:大腦多序列MRI圖像生成及下游的大腦腫瘤分割任務,心臟CTA圖像生成及下游的全心臟結(jié)構(gòu)分割任務,多種器官的病理圖像生成及細胞核實例分割任務等。
在可擴展性方面,該方法還可支持多模態(tài)數(shù)據(jù)中缺失模態(tài)數(shù)據(jù)的生成、持續(xù)學習等不同場景。

DSL框架的構(gòu)建,也有利于推動MaaS服務模式發(fā)展。
MaaS的醫(yī)療大模型在數(shù)據(jù)學習過程中,同樣會遇到醫(yī)療數(shù)據(jù)隱私安全保護問題?;贒SL框架,可以有效地從多中心多樣性數(shù)據(jù)中建立數(shù)據(jù)集倉庫,通過生成數(shù)據(jù),為大模型的開發(fā)迭代提供創(chuàng)新思路。
細化到具體應用場景,DSL框架可助力醫(yī)療機構(gòu)高效開展跨中心、跨地域模型訓練工作。
不同區(qū)域醫(yī)療機構(gòu)在疾病數(shù)據(jù)多樣性方面存在明顯地域性差異,過去受限于數(shù)據(jù)安全和隱私保護要求,使用跨中心醫(yī)療數(shù)據(jù)聯(lián)合訓練醫(yī)療模型難度大。而借助DSL框架,有望幫助醫(yī)療機構(gòu)更加高效便捷地開展跨中心醫(yī)療模型訓練。
在2023 WAIC世界人工智能大會上,商湯科技與行業(yè)伙伴合作推出醫(yī)療大語言模型、醫(yī)療影像大模型、生信大模型等多種垂類基礎(chǔ)模型群,覆蓋CT、MRI、超聲、內(nèi)鏡、病理、醫(yī)學文本、生信數(shù)據(jù)等不同醫(yī)療數(shù)據(jù)模態(tài)。并展示了融入醫(yī)療大模型的升級版“SenseCare智慧醫(yī)院”綜合解決方案,以及多個醫(yī)療大模型落地案例。
借助商湯大裝置的超大算力和醫(yī)療基礎(chǔ)模型群的堅實基礎(chǔ),商湯得以成為“醫(yī)療大模型工廠”,幫助醫(yī)療機構(gòu)針對不同臨床問題高效訓練模型,甚至輔助機構(gòu)實現(xiàn)模型自主訓練。

隨著DSL框架的推出,醫(yī)療大模型訓練將有望突破“數(shù)據(jù)孤島”的桎梏,一定程度上降低醫(yī)療大模型的訓練門檻,有助于加速模型開發(fā)迭代,使醫(yī)療大模型的應用范圍得以覆蓋更多臨床醫(yī)療問題。
商湯科技將持續(xù)聚焦醫(yī)療機構(gòu)的多樣化需求,推動醫(yī)療大模型在更多醫(yī)療場景落地。 點擊“閱讀原文“查看論文詳情
相關(guān)閱讀,戳這里
《多場景落地!商湯打造“醫(yī)療大模型工廠”引領(lǐng)智慧醫(yī)療持續(xù)創(chuàng)新》
《嘉會醫(yī)療與商湯科技達成戰(zhàn)略合作》
原文標題:解決醫(yī)療大模型訓練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊
文章出處:【微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
商湯科技
+關(guān)注
關(guān)注
8文章
562瀏覽量
36776
原文標題:解決醫(yī)療大模型訓練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Nullmax端到端自動駕駛最新研究成果入選ICCV 2025

后摩智能與高校合作研究成果榮獲ISCA 2025最佳論文獎
NVIDIA在ICRA 2025展示多項最新研究成果
數(shù)據(jù)標注服務—奠定大模型訓練的數(shù)據(jù)基石
標貝數(shù)據(jù)標注服務:奠定大模型訓練的數(shù)據(jù)基石

商湯醫(yī)療聯(lián)合成立上海公共服務MaaS訓練及成果轉(zhuǎn)化聯(lián)盟
如何訓練自己的LLM模型
商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院簽署戰(zhàn)略合作協(xié)議
AI大模型的訓練數(shù)據(jù)來源分析
如何訓練自己的AI大模型
SynSense時識科技與海南大學聯(lián)合研究成果發(fā)布

中移芯昇發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設施研究成果

評論