99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI重磅推出語言模型DALL·E和圖像識別系統(tǒng)CLIP

454398 ? 來源:控制工程網(wǎng) ? 作者:控制工程網(wǎng) ? 2021-01-15 11:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統(tǒng)CLIP。

這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經(jīng)網(wǎng)絡(luò)都旨在生成能夠理解圖像和相關(guān)文本的模型。OpenAI希望這些升級后的語言模型能夠以接近人類解釋世界的方式來解讀圖像。

2020年5月,OpenAI發(fā)布了迄今為止全球規(guī)模最大的預(yù)訓(xùn)練語言模型GPT-3。GPT-3具有1750億參數(shù),訓(xùn)練所用的數(shù)據(jù)量達(dá)到45TB。對于所有任務(wù),應(yīng)用GPT-3無需進(jìn)行任何梯度更新或微調(diào),僅需要與模型文本交互為其指定任務(wù)和展示少量演示即可使其完成任務(wù)。

GPT-3在許多自然語言處理數(shù)據(jù)集上均具有出色的性能,包括翻譯、問答和文本填空任務(wù),還包括一些需要即時推理或領(lǐng)域適應(yīng)的任務(wù)等,已在很多實際任務(wù)上大幅接近人類水平。

新發(fā)布的語言模型DALL·E,是GPT-3的120億參數(shù)版本,可以按照自然語言文字描述直接生成對應(yīng)圖片!

這個新系統(tǒng)的名稱DALL·E,來源于藝術(shù)家薩爾瓦多·達(dá)利(Salvador Dali)和皮克斯的機器人英雄瓦力(WALL-E)的結(jié)合。新系統(tǒng)展示了“為一系列廣泛的概念”創(chuàng)造圖像的能力,可從文字標(biāo)題直接創(chuàng)建圖像以表達(dá)概念。通過從文本描述而不是標(biāo)簽數(shù)據(jù)生成圖像,可以為模型提供了更多有關(guān)含義的上下文。

開發(fā)人員將DALL·E稱為“轉(zhuǎn)換語言模型”(transformer language model),能夠?qū)⑽谋竞蛨D像作為單個數(shù)據(jù)流接收。這種訓(xùn)練程序使得DALL·E不僅可以從零開始生成圖像,而且還可以重新生成現(xiàn)有圖像的任何矩形區(qū)域……。以一種與文本提示一致的方式。

這種語言模型能夠反映人類語言的微妙之處,包括 “將不同的想法結(jié)合起來合成物體的能力”。例如,在DALL·E模型中輸入“牛油果形狀的扶手椅”,它就可以生成這樣的圖片:

DALL·E還擴展了被稱為“零樣本推理”(zero-shotreasoning)的GPT-3功能,這是一種強大的常識性機器學(xué)習(xí)形式。DALL·E將這一功能擴展到了視覺領(lǐng)域,并且在以正確的方式提示時能夠執(zhí)行多種圖像到圖像的翻譯任務(wù)。

圖像識別系統(tǒng)CLIP的通用性比當(dāng)前針對單個任務(wù)的系統(tǒng)更好,可以用網(wǎng)上公開的文字圖像配對數(shù)據(jù)集來訓(xùn)練。CLIP系統(tǒng)可用于對比語言-圖像預(yù)訓(xùn)練,通過從網(wǎng)絡(luò)圖像中收集的自然語言監(jiān)督學(xué)習(xí)視覺概念。OpenAI表示CLIP的工作方式是提供要識別的視覺類別的名稱。

當(dāng)將其應(yīng)用于圖像分類基準(zhǔn)時,可以指示模型執(zhí)行一系列基準(zhǔn),而無需針對每個測試進(jìn)行優(yōu)化。OpenAI表示:“通過不直接針對基準(zhǔn)進(jìn)行優(yōu)化,我們證明它變得更具代表性?!?CLIP方法可將“穩(wěn)健性差距”縮小多達(dá)75%。

OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever認(rèn)為,人工智能的長期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò),即AI能夠?qū)W習(xí)不同模態(tài)之間的概念(文本和視覺領(lǐng)域為主),從而更好地理解世界,而 DALL·E 和 CLIP 使我們更接近“多模態(tài) AI 系統(tǒng)”這一目標(biāo)。

未來,我們將擁有同時理解文本和圖像的模型。人工智能將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103721
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    527

    瀏覽量

    39128
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49035

    瀏覽量

    249775
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    7044
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1210

    瀏覽量

    8951
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于FPGA的數(shù)字識別系統(tǒng)設(shè)計

    圖像處理領(lǐng)域,圖像識別是較為困難而關(guān)鍵的技術(shù)。這項技術(shù)被廣泛的應(yīng)用到娛樂、工業(yè)、軍事等領(lǐng)域。本次設(shè)計數(shù)字識別系統(tǒng)已經(jīng)在車牌識別、運動員號碼識別
    的頭像 發(fā)表于 07-16 14:28 ?553次閱讀
    基于FPGA的數(shù)字<b class='flag-5'>識別系統(tǒng)</b>設(shè)計

    火車車號圖像識別系統(tǒng)如何應(yīng)對不同光照條件下的識別問題?

    在鐵路運輸管理中,準(zhǔn)確識別火車車號是實現(xiàn)自動化車輛管理的關(guān)鍵環(huán)節(jié)。然而,實際應(yīng)用場景中復(fù)雜多變的光照條件給車號識別帶來了巨大挑戰(zhàn)?,F(xiàn)代火車車號圖像識別系統(tǒng)通過多項技術(shù)創(chuàng)新,有效解決了這一難題。 多
    的頭像 發(fā)表于 07-15 11:37 ?139次閱讀
    火車車號<b class='flag-5'>圖像識別系統(tǒng)</b>如何應(yīng)對不同光照條件下的<b class='flag-5'>識別</b>問題?

    手持終端集裝箱識別系統(tǒng)圖像識別技術(shù)

    行業(yè)提供了更靈活、精準(zhǔn)的管理工具。 一、技術(shù)核心:OCR+AI深度融合 現(xiàn)代手持終端系統(tǒng)采用多模態(tài)圖像識別技術(shù),結(jié)合深度學(xué)習(xí)算法,可快速捕捉并解析集裝箱號碼。其技術(shù)優(yōu)勢體現(xiàn)在: 1. 復(fù)雜環(huán)境適應(yīng)性:通過動態(tài)曝光補償和圖像增強算
    的頭像 發(fā)表于 04-03 10:49 ?300次閱讀

    岸橋箱號識別系統(tǒng)如何工作?揭秘AI圖像識別技術(shù)!

    在港口自動化升級的浪潮中,AI岸橋識別系統(tǒng)憑借前沿的圖像識別技術(shù),成為提升碼頭作業(yè)效率的“智慧之眼”。那么,這套系統(tǒng)如何實現(xiàn)集裝箱信息的精準(zhǔn)捕捉?又是如何通過AI技術(shù)替代傳統(tǒng)人工理貨?讓我們一探
    的頭像 發(fā)表于 04-02 09:45 ?264次閱讀

    岸橋箱號識別系統(tǒng)的工作原理 #人工智能 #識別系統(tǒng)

    識別系統(tǒng)
    jf_60141436
    發(fā)布于 :2025年03月24日 09:28:11

    #新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門

    開發(fā)的語言模型工具,支持文本生成、代碼編寫等。 MidJourney:一個用于圖像生成的工具,允許用戶輸入文本描述以生成相應(yīng)的圖像DALL
    發(fā)表于 01-13 10:46

    AIGC入門及鴻蒙入門

    開發(fā)的語言模型工具,支持文本生成、代碼編寫等。 MidJourney:一個用于圖像生成的工具,允許用戶輸入文本描述以生成相應(yīng)的圖像。 DALL
    發(fā)表于 01-13 10:32

    一文說清楚什么是AI大模型

    DALL-E)、科學(xué)計算模型(如 AlphaFold)以及多模態(tài)模型。這些模型通過海量數(shù)據(jù)訓(xùn)練,展現(xiàn)出高度的泛用性。 比較有代表性的大語言
    的頭像 發(fā)表于 01-02 09:53 ?1746次閱讀
    一文說清楚什么是AI大<b class='flag-5'>模型</b>

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應(yīng)用程序接口(API)的計劃。Sora模型能夠基于文本和圖像生成視頻,引發(fā)了廣泛關(guān)
    的頭像 發(fā)表于 12-20 14:23 ?534次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具
    的頭像 發(fā)表于 12-12 09:40 ?722次閱讀

    RFID識別系統(tǒng)

    隨著信息技術(shù)的快速發(fā)展,RFID(射頻識別)技術(shù)在各行各業(yè)的應(yīng)用日益廣泛,其中RFID識別系統(tǒng)作為核心應(yīng)用,已經(jīng)成為智能化管理不可或缺的基石。通過無線射頻信號的非接觸式識別與數(shù)據(jù)傳輸,RFID
    的頭像 發(fā)表于 12-06 17:57 ?1123次閱讀
    RFID<b class='flag-5'>識別系統(tǒng)</b>

    AI圖像識別攝像機

    ?AI圖像識別攝像機是一種集成了先進(jìn)算法和深度學(xué)習(xí)模型的智能監(jiān)控設(shè)備。這些攝像機不僅能夠捕捉視頻畫面,還能實時分析和處理所拍攝的內(nèi)容,從而實現(xiàn)對特定對象、場景或行
    的頭像 發(fā)表于 11-08 10:38 ?881次閱讀
    AI<b class='flag-5'>圖像識別</b>攝像機

    AI大模型圖像識別中的優(yōu)勢

    AI大模型圖像識別中展現(xiàn)出了顯著的優(yōu)勢,這些優(yōu)勢主要源于其強大的計算能力、深度學(xué)習(xí)算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對AI大模型圖像識別中優(yōu)勢的介紹: 一、高效性與準(zhǔn)確性 處理速
    的頭像 發(fā)表于 10-23 15:01 ?2453次閱讀

    【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNPU圖像識別測試

    和突觸的處理器,特別擅長處理人工智能任務(wù),能夠大大降低CPU和GPU的負(fù)擔(dān)。 功能 :RKNPU負(fù)責(zé)處理需要高計算性能的人工智能任務(wù),如圖像識別、語音識別、自然語言處理等,從而提升設(shè)備的智能化水平
    發(fā)表于 10-10 09:27