99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字節(jié)跳動(dòng)發(fā)布文生圖開(kāi)放模型,迅速?zèng)_上Hugging Face Spaces熱榜

jf_WZTOguxH ? 來(lái)源:AI前線 ? 2024-02-26 13:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很高興跟大家分享我們最新的文生圖模型 —— SDXL-Lightning,它實(shí)現(xiàn)了前所未有的速度和質(zhì)量,并且已經(jīng)向社區(qū)開(kāi)放。

閃電般的圖片生成

生成式 AI 正憑借其根據(jù)文本提示(text prompts)創(chuàng)造出驚艷圖像乃至視頻的能力,贏得全球的矚目。當(dāng)前最先進(jìn)的生成模型依賴(lài)于擴(kuò)散過(guò)程(diffusion),這是一個(gè)將噪聲逐步轉(zhuǎn)化為圖像樣本的迭代過(guò)程。這個(gè)過(guò)程需要耗費(fèi)巨大的計(jì)算資源并且速度較慢,在生成高質(zhì)量圖像樣本的過(guò)程中,單張圖像的處理時(shí)間約為 5 秒,其中通常需要多次(20 到 40 次)調(diào)用龐大的神經(jīng)網(wǎng)絡(luò)。這樣的速度限制了有快速、實(shí)時(shí)生成需求的應(yīng)用場(chǎng)景。如何在提升生成質(zhì)量的同時(shí)加快速度,是當(dāng)前研究的熱點(diǎn)領(lǐng)域,也是我們工作的核心目標(biāo)。

SDXL-Lightning 通過(guò)一種創(chuàng)新技術(shù)——漸進(jìn)式對(duì)抗蒸餾(Progressive Adversarial Distillation)——突破了這一障礙,實(shí)現(xiàn)了前所未有的生成速度。該模型能夠在短短 2 步或 4 步內(nèi)生成極高質(zhì)量和分辨率的圖像,將計(jì)算成本和時(shí)間降低十倍。我們的方法甚至可以在 1 步內(nèi)為超時(shí)敏感的應(yīng)用生成圖像,雖然可能會(huì)稍微犧牲一些質(zhì)量。

除了速度優(yōu)勢(shì),SDXL-Lightning 在圖像質(zhì)量上也有顯著表現(xiàn),并在評(píng)估中超越了以往的加速技術(shù)。在實(shí)現(xiàn)更高分辨率和更佳細(xì)節(jié)的同時(shí)保持良好的多樣性和圖文匹配度。

33c5b058-d461-11ee-a297-92fbcf53809c.gif

速度對(duì)比示意

原始模型(20 步),SDXL-Lightning 模型(2 步)

模型效果

SDXL-Lightning 模型可以通過(guò) 1 步、2 步、4 步和 8 步來(lái)生成圖像。推理步驟越多,圖像質(zhì)量越好。

以下是 4 步生成結(jié)果——

以下是 2 步生成結(jié)果—— 與以前的方法(Turbo 和 LCM)相比,我們的方法生成的圖像在細(xì)節(jié)上有顯著改進(jìn),并且更忠實(shí)于原始生成模型的風(fēng)格和布局。

3400e01a-d461-11ee-a297-92fbcf53809c.png

回饋社區(qū),開(kāi)放模型

開(kāi)源開(kāi)放的浪潮已經(jīng)成為推動(dòng)人工智能迅猛發(fā)展的關(guān)鍵力量,字節(jié)跳動(dòng)也自豪地成為這股浪潮的一部分。我們的模型基于目前最流行的文字生成圖像開(kāi)放模型 SDXL,該模型已經(jīng)擁有一個(gè)繁榮的生態(tài)系統(tǒng)?,F(xiàn)在,我們決定將 SDXL-Lightning 開(kāi)放給全球的開(kāi)發(fā)者、研究人員和創(chuàng)意從業(yè)者,以便他們能訪問(wèn)并運(yùn)用這一模型,進(jìn)一步推動(dòng)整個(gè)行業(yè)的創(chuàng)新和協(xié)作。

在設(shè)計(jì) SDXL-Lightning 時(shí),我們就考慮到與開(kāi)放模型社區(qū)的兼容。社區(qū)中已有眾多藝術(shù)家和開(kāi)發(fā)者創(chuàng)建了各種各樣的風(fēng)格化圖像生成模型,例如卡通和動(dòng)漫風(fēng)格等。為了支持這些模型,我們提供 SDXL-Lightning 作為一個(gè)增速插件,它可以無(wú)縫地整合到這些多樣風(fēng)格的 SDXL 模型中,為各種不同模型加快圖像生成的速度。 342047d4-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相結(jié)合,實(shí)現(xiàn)極速可控的圖片生成。

345c001c-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也支持開(kāi)源社區(qū)里目前最流行的生成軟件 ComfyUI,模型可以被直接加載來(lái)使用:

347621e0-d461-11ee-a297-92fbcf53809c.png

關(guān)于技術(shù)細(xì)節(jié)

從理論上來(lái)說(shuō),圖像生成是一個(gè)由噪聲到清晰圖像的逐步轉(zhuǎn)化過(guò)程。在這一過(guò)程中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)在這個(gè)轉(zhuǎn)化流(flow)中各個(gè)位置上的梯度。

生成圖像的具體步驟是這樣的:

首先我們?cè)诹鞯钠瘘c(diǎn),隨機(jī)采樣一個(gè)噪聲樣本,接著用神經(jīng)網(wǎng)絡(luò)計(jì)算出梯度。根據(jù)當(dāng)前位置上的梯度,我們對(duì)樣本進(jìn)行微小的調(diào)整,然后不斷重復(fù)這一過(guò)程。每一次迭代,樣本都會(huì)更接近最終的圖像分布,直至獲得一張清晰的圖像。 34921a9e-d461-11ee-a297-92fbcf53809c.png

圖:生成流程(來(lái)自:https://arxiv.org/abs/2011.13456)

由于生成流復(fù)雜且非直線,生成過(guò)程必須一次只走一小步以減少梯度誤差累積,所以需要神經(jīng)網(wǎng)絡(luò)的頻繁計(jì)算,這就是計(jì)算量大的原因。

34a43d00-d461-11ee-a297-92fbcf53809c.png

圖:曲線流程(圖片來(lái)自:https://arxiv.org/abs/2210.05475)

為了減少生成圖像所需的步驟數(shù)量,許多研究致力于尋找解決方案。一些研究提出了能減少誤差的采樣方法,而其他研究則試圖使生成流更加直線化。盡管這些方法有所進(jìn)展,但它們?nèi)匀恍枰^(guò) 10 個(gè)推理步驟來(lái)生成圖像。

另一種方法是模型蒸餾,它能夠在少于 10 個(gè)推理步驟的情況下生成高質(zhì)量圖像。不同于計(jì)算當(dāng)前流位置下的梯度,模型蒸餾改變模型預(yù)測(cè)的目標(biāo),直接讓其預(yù)測(cè)下一個(gè)更遠(yuǎn)的流位置。具體來(lái)說(shuō),我們訓(xùn)練一個(gè)學(xué)生網(wǎng)絡(luò)直接預(yù)測(cè)老師網(wǎng)絡(luò)完成了多步推理后的結(jié)果。這樣的策略可以大幅減少所需的推理步驟數(shù)量。通過(guò)反復(fù)應(yīng)用這個(gè)過(guò)程,我們可以進(jìn)一步降低推理步驟的數(shù)量。這種方法被先前的研究稱(chēng)之為漸進(jìn)式蒸餾。

34bd92c8-d461-11ee-a297-92fbcf53809c.png

圖:漸進(jìn)式蒸餾,學(xué)生網(wǎng)絡(luò)預(yù)測(cè)老師網(wǎng)絡(luò)多步后的結(jié)果

在實(shí)際操作中,學(xué)生網(wǎng)絡(luò)往往難以精確預(yù)測(cè)未來(lái)的流位置。誤差隨著每一步的累積而放大,導(dǎo)致在少于 8 步推理的情況下,模型產(chǎn)生的圖像開(kāi)始變得模糊不清。

為了解決這個(gè)問(wèn)題,我們的策略是不強(qiáng)求學(xué)生網(wǎng)絡(luò)精確匹配教師網(wǎng)絡(luò)的預(yù)測(cè),而是讓學(xué)生網(wǎng)絡(luò)在概率分布上與教師網(wǎng)絡(luò)保持一致。換言之,學(xué)生網(wǎng)絡(luò)被訓(xùn)練來(lái)預(yù)測(cè)一個(gè)概率上可能的位置,即使這個(gè)位置并不完全準(zhǔn)確,我們也不會(huì)對(duì)它進(jìn)行懲罰。這個(gè)目標(biāo)是通過(guò)對(duì)抗訓(xùn)練來(lái)實(shí)現(xiàn)的,引入了一個(gè)額外的判別網(wǎng)絡(luò)來(lái)幫助實(shí)現(xiàn)學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)輸出的分布匹配。

這是我們研究方法的簡(jiǎn)要概述。在技術(shù)論文(https://arxiv.org/abs/2402.13929)中,我們提供了更深入的理論分析、訓(xùn)練策略以及模型的具體公式化細(xì)節(jié)。

SDXL-Lightning 之外

盡管本研究主要探討了如何利用 SDXL-Lightning 技術(shù)進(jìn)行圖像生成,但我們所提出的漸進(jìn)式對(duì)抗蒸餾方法的應(yīng)用潛力不局限于靜態(tài)圖像的范疇。這一創(chuàng)新技術(shù)也可以被運(yùn)用于快速且高質(zhì)量生成視頻、音頻以及其他多模態(tài)內(nèi)容。我們誠(chéng)摯邀請(qǐng)您在 HuggingFace 平臺(tái)上體驗(yàn) SDXL-Lightning,并期待您寶貴的意見(jiàn)和反饋。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103697
  • LCM
    LCM
    +關(guān)注

    關(guān)注

    6

    文章

    57

    瀏覽量

    34980
  • 字節(jié)跳動(dòng)
    +關(guān)注

    關(guān)注

    0

    文章

    347

    瀏覽量

    9492
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    531

    瀏覽量

    822

原文標(biāo)題:就是“快”!字節(jié)跳動(dòng)發(fā)布文生圖開(kāi)放模型,迅速?zèng)_上Hugging Face Spaces 熱榜

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    字節(jié)跳動(dòng)否認(rèn)趙明加盟及自研手機(jī)傳聞

    月7日正式發(fā)表聲明進(jìn)行回應(yīng)。公司方面明確表示,關(guān)于趙明加盟字節(jié)跳動(dòng)的消息并不屬實(shí),公司并未與趙明就加盟事宜進(jìn)行過(guò)任何接觸或談判。這一聲明迅速澄清了市場(chǎng)關(guān)于趙明可能加入字節(jié)
    的頭像 發(fā)表于 02-10 09:12 ?578次閱讀

    字節(jié)跳動(dòng)發(fā)布OmniHuman 多模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 多模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?802次閱讀

    Hugging Face推出最小AI視覺(jué)語(yǔ)言模型

    Hugging Face平臺(tái)于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級(jí)AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。 其中
    的頭像 發(fā)表于 01-24 14:15 ?972次閱讀

    字節(jié)跳動(dòng)豆包大模型1.5 Pro發(fā)布

    近日,字節(jié)跳動(dòng)旗下的豆包大模型迎來(lái)了全新的升級(jí)——豆包大模型1.5 Pro正式發(fā)布。這款全新模型
    的頭像 發(fā)表于 01-23 15:24 ?666次閱讀

    字節(jié)跳動(dòng)發(fā)布豆包大模型1.5 Pro

    字節(jié)跳動(dòng)正式發(fā)布了豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型綜合能力顯著增強(qiáng),在知識(shí)、代碼、推理、中文等多個(gè)測(cè)
    的頭像 發(fā)表于 01-23 10:24 ?661次閱讀

    騰訊混元文生登頂智源FlagEval評(píng)測(cè)榜首

    近日,北京智源人工智能研究院(BAAI)發(fā)布了最新的FlagEval大模型評(píng)測(cè)排行,其中多模態(tài)模型評(píng)測(cè)榜單的文生
    的頭像 發(fā)表于 12-25 10:06 ?856次閱讀

    字節(jié)跳動(dòng)否認(rèn)與中興通訊合作傳聞

    近日,有關(guān)字節(jié)跳動(dòng)旗下豆包大模型將內(nèi)嵌手機(jī)并與中興通訊探討成立新品牌的消息引發(fā)了市場(chǎng)的廣泛關(guān)注。然而,字節(jié)跳動(dòng)方面對(duì)此明確予以否認(rèn),稱(chēng)并未與
    的頭像 發(fā)表于 12-18 10:08 ?1107次閱讀

    字節(jié)發(fā)布SeedEdit圖像編輯模型

    近日,字節(jié)跳動(dòng)公司在其豆包大模型團(tuán)隊(duì)的官方網(wǎng)站上,正式公布了其最新的通用圖像編輯模型——SeedEdit。這款創(chuàng)新性的圖像編輯模型,為用戶提
    的頭像 發(fā)表于 11-12 10:43 ?764次閱讀

    字節(jié)跳動(dòng)自研視頻生成模型Seaweed開(kāi)放

    近日,字節(jié)跳動(dòng)旗下的AI內(nèi)容平臺(tái)即夢(mèng)AI傳來(lái)新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺(tái)用戶開(kāi)放使用。這一舉措標(biāo)志著字節(jié)
    的頭像 發(fā)表于 11-11 14:31 ?704次閱讀

    字節(jié)跳動(dòng)計(jì)劃在歐洲設(shè)立AI研發(fā)中心

    字節(jié)跳動(dòng)正積極布局歐洲市場(chǎng),計(jì)劃在該地區(qū)設(shè)立AI研發(fā)中心。據(jù)知情人士透露,字節(jié)跳動(dòng)已開(kāi)始在歐洲尋找LLM(Large Language Model,大語(yǔ)言
    的頭像 發(fā)表于 10-28 11:04 ?1026次閱讀

    字節(jié)跳動(dòng)與清華AIR成立聯(lián)合研究中心

    近日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)與字節(jié)跳動(dòng)共同宣布成立“可擴(kuò)展大模型智能技術(shù)聯(lián)合研究中心”(SIA Lab),并在清華大學(xué)舉行了隆重的成立儀式。
    的頭像 發(fā)表于 10-12 15:24 ?813次閱讀

    字節(jié)跳動(dòng)否認(rèn)與臺(tái)積電合作AI芯片

    近日,關(guān)于字節(jié)跳動(dòng)計(jì)劃與臺(tái)積電攜手開(kāi)發(fā)AI芯片的報(bào)道引發(fā)關(guān)注。對(duì)此,字節(jié)跳動(dòng)迅速作出回應(yīng),明確表示該報(bào)道不實(shí)。
    的頭像 發(fā)表于 09-19 16:04 ?513次閱讀

    字節(jié)跳動(dòng)豆包大模型已支持實(shí)時(shí)語(yǔ)音通話

    字節(jié)跳動(dòng)火山引擎今日隆重推出創(chuàng)新對(duì)話式AI實(shí)時(shí)交互解決方案,該方案以火山方舟大模型服務(wù)平臺(tái)為核心,全面升級(jí)語(yǔ)音交互體驗(yàn)。該方案深度融合火山引擎RTC技術(shù),實(shí)現(xiàn)了語(yǔ)音數(shù)據(jù)的即時(shí)采集、高效處理與穩(wěn)定傳輸,同時(shí)無(wú)縫集成豆包?語(yǔ)音識(shí)別與
    的頭像 發(fā)表于 08-12 16:13 ?1208次閱讀

    華發(fā)數(shù)智攜手字節(jié)跳動(dòng)共同發(fā)布AI數(shù)字人及大模型綜合解決方案

    近日,珠海華發(fā)數(shù)智技術(shù)有限公司(簡(jiǎn)稱(chēng):華發(fā)數(shù)智)攜手字節(jié)跳動(dòng)旗下領(lǐng)先的云服務(wù)平臺(tái)火山引擎,共同發(fā)布了AI數(shù)字人及大模型綜合解決方案,標(biāo)志著華發(fā)集團(tuán)在AI大
    的頭像 發(fā)表于 08-07 16:53 ?1294次閱讀

    Hugging Face科技公司推出SmolLM系列語(yǔ)言模型

    7月22日最新資訊,Hugging Face科技公司在語(yǔ)言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專(zhuān)為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語(yǔ)言模型家族。該系列包含三個(gè)版本,分別搭
    的頭像 發(fā)表于 07-23 16:35 ?747次閱讀