99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺對(duì)話能力讓AI邁上新臺(tái)階

OaXG_jingzhengl ? 來源:YXQ ? 2019-07-02 16:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機(jī)對(duì)話系統(tǒng)所描繪的那樣,擁有智能視覺對(duì)話能力的AI隨著技術(shù)的不斷突破,正在向我們走來。

每個(gè)人都有這樣的回憶,小時(shí)候語文老師教我們看圖說話,許多小朋友腦洞大開,說出來的答案讓人啼笑皆非。實(shí)際上,看圖說話的能力在年幼時(shí)期需要訓(xùn)練,而對(duì)于大一點(diǎn)孩子來說就不成問題了。如今,機(jī)器人也能做到看圖說話了。

近日,來自中國(guó)AI在這項(xiàng)能力上已經(jīng)打破了世界紀(jì)錄。在第二屆全球AI視覺對(duì)話競(jìng)賽(Visual Dialogue Challenge)中,阿里AI擊敗了微軟、首爾大學(xué)等十支參賽隊(duì)伍,一舉獲得冠軍。

阿里AI在視覺對(duì)話競(jìng)賽中得冠

會(huì)“看圖說話”的AI有多聰明?

這場(chǎng)視覺對(duì)話競(jìng)賽由美國(guó)佐治亞理工大學(xué)、Facebook人工智能實(shí)驗(yàn)室(FAIR)等機(jī)構(gòu)聯(lián)合全球視覺技術(shù)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議CVPR發(fā)起,是目前視覺對(duì)話領(lǐng)域最權(quán)威的競(jìng)賽之一。

該競(jìng)賽要求參賽的AI在看完近萬張圖片后,回答出人類對(duì)于任一圖片任一內(nèi)容的提問。這要求AI不僅能夠描述出圖片中內(nèi)容的概況,還要經(jīng)得起人類對(duì)圖片各種細(xì)節(jié)的追問。比如,在一張撐著雨傘的人物圖片中,說出傘是什么顏色的,有多少人在圖中,附近有什么物品和建筑物等等信息。

視覺對(duì)話中AI可以從容應(yīng)對(duì)人類提問(左為AI、右為人類)

競(jìng)賽結(jié)果顯示,阿里AI以74.57%的準(zhǔn)確率獲得冠軍,將上一屆比賽的紀(jì)錄提高了16.82%,并且超過微軟AI的64.78%的準(zhǔn)確率。而在相同的數(shù)據(jù)集中,人類的準(zhǔn)確率僅為64.27%,AI甚至勝過了人類。

傳統(tǒng)的視覺AI主要針對(duì)目標(biāo)的檢測(cè)和識(shí)別,但對(duì)復(fù)雜場(chǎng)景中目標(biāo)之間的邏輯關(guān)系理解、推理能力較弱,無法回答表達(dá)圖片對(duì)象直接關(guān)系的復(fù)雜問題,也難以將圖片信息轉(zhuǎn)化為人類理解的語言輸出。

這意味著,要實(shí)現(xiàn)視覺對(duì)話能力,傳統(tǒng)的視覺AI在學(xué)會(huì)“看圖”之后,還要有一種語言模型來支撐它“說話”。阿里AI的突破就在于提出了“遞歸探索對(duì)話模型”。

視覺對(duì)話AI與用戶交流圖像內(nèi)容

這一模型通過標(biāo)注信息學(xué)習(xí)出模仿人類認(rèn)知復(fù)雜場(chǎng)景的思維方式,能識(shí)別圖片里的實(shí)體以及它們之間的關(guān)系,推理出圖片所描述的事件內(nèi)容,并通過對(duì)上下文進(jìn)行有效建模,綜合集成了圖像識(shí)別、關(guān)系推理與自然語言理解三大能力,能理解人類提出的問題及真實(shí)意圖,給出自然準(zhǔn)確的回復(fù)。

視覺對(duì)話能力讓AI邁上新臺(tái)階

AI能“看圖說話”,這樣的應(yīng)用其實(shí)距離我們并不遙遠(yuǎn),微軟之前推出了一款年齡測(cè)試工具How-old.net ,曾經(jīng)刷爆微博和朋友圈,所應(yīng)用的就是這一技術(shù)的應(yīng)用。

目前微軟還開放了能“看圖說話”的AI系統(tǒng),用戶進(jìn)入官網(wǎng)上傳圖片,稍等一會(huì),就能看到系統(tǒng)對(duì)于圖片的描述。其準(zhǔn)確率雖然不低但依舊有待提升,以一張?jiān)?jīng)廣為流傳的黑人問號(hào)表情圖片為例,AI很快給出了客觀的回答:“我覺得這是籃球隊(duì)員尼克·楊露出牙齒微笑。”

AI視覺對(duì)話識(shí)別圖片信息

以“看圖說話”為代表的視覺對(duì)話是近年來快速崛起的AI研究方向,目的在于教會(huì)機(jī)器用自然語言與人類討論視覺內(nèi)容,這能夠使機(jī)器擁有了對(duì)真實(shí)視覺世界的理解與推斷能力,也意味著AI的認(rèn)知能力將邁上新的臺(tái)階。

可以預(yù)見,這項(xiàng)技術(shù)未來將被應(yīng)用在人機(jī)交互諸多場(chǎng)景:

在火災(zāi)、地震后在廢墟中尋找幸存者的救援機(jī)器人,能夠代替人類之眼,深入危險(xiǎn)的現(xiàn)場(chǎng),及時(shí)、高效地綜合指揮指令和場(chǎng)景信息作出行動(dòng)。

視覺對(duì)話技術(shù)有望人類提高地震救援效率

視障人士可以通過提問AI,理解圖像中的內(nèi)容,了解自身所處的周圍環(huán)境,為其生活起居帶來更多的便利。

無人駕駛車輛也可以在行駛中通過視覺對(duì)話,更加準(zhǔn)確理解人類意圖征詢?nèi)祟惖囊庖?,讓乘客的乘坐體驗(yàn)更好。

正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機(jī)對(duì)話系統(tǒng)所描繪的那樣,擁有智能視覺對(duì)話能力的AI隨著技術(shù)的不斷突破,正在向我們走來。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺
    +關(guān)注

    關(guān)注

    163

    文章

    4597

    瀏覽量

    122913
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280013

原文標(biāo)題:機(jī)器人看圖說話能力比肩人類!中國(guó)AI超越微軟,打破世界紀(jì)錄

文章出處:【微信號(hào):jingzhenglizixun,微信公眾號(hào):機(jī)器人博覽】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識(shí)別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無需依賴網(wǎng)絡(luò)即可實(shí)現(xiàn)智能功能的特性,在一些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場(chǎng)景中,發(fā)揮著不可或缺的作用。本章基于CSK6大模型語音視覺
    發(fā)表于 07-04 11:14

    神眸引領(lǐng)AI智能視覺新范式,科技更有溫度

    AI能力矩陣,更是通過情感化交互與場(chǎng)景化服務(wù),用戶真正感受到科技帶來的溫暖陪伴。神眸以“云、網(wǎng)、邊、端、芯”全鏈路自研架構(gòu)為基石,從芯片級(jí)性能突破到云端智能服
    的頭像 發(fā)表于 05-23 13:24 ?411次閱讀
    神眸引領(lǐng)<b class='flag-5'>AI</b>智能<b class='flag-5'>視覺</b>新范式,<b class='flag-5'>讓</b>科技更有溫度

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    模型、通義千問、混元等多種先進(jìn)端側(cè)大模型,還包含視覺、語言、多模態(tài)等多種多樣的大模型,開發(fā)者可以通過Gen-AI Model Hub一鍵調(diào)用模型能力
    發(fā)表于 04-13 19:52

    燧原科技正式納入飛槳例行版本發(fā)布體系

    燧原科技與飛槳經(jīng)過長(zhǎng)時(shí)間的適配合作和持續(xù)集成(CI)建設(shè),對(duì)飛槳合?的每?行代碼都在燧原硬件上進(jìn)?了驗(yàn)證。如今,燧原正式納入飛槳例行版本發(fā)布體系。未來,燧原將基于這?合作模式,共同?持飛槳重大版本發(fā)布,推動(dòng)AI技術(shù)創(chuàng)新和開源?態(tài)發(fā)展
    的頭像 發(fā)表于 04-11 11:31 ?479次閱讀
    燧原科技正式納入飛槳例行版本發(fā)布體系

    單次、多次對(duì)話與RTC對(duì)話AI交互模式,如何各顯神通?

    在這個(gè)充滿無限可能的AI時(shí)代,這些奇妙場(chǎng)景正逐步走進(jìn)我們的生活。你可曾想象過,有一天家里的智能設(shè)備會(huì)化身相聲演員,和你幽默對(duì)答?或者,你的玩具能像知心好友一樣,陪你暢聊心事?單次對(duì)話、多次對(duì)話
    的頭像 發(fā)表于 04-02 18:18 ?609次閱讀
    單次、多次<b class='flag-5'>對(duì)話</b>與RTC<b class='flag-5'>對(duì)話</b><b class='flag-5'>AI</b>交互模式,如何各顯神通?

    圣邦微電子SGM58201 24位高精度Σ-Δ ADC 最高22Bits ENOB有效分辨率

    如果您正在尋找一款具備高精度、低溫漂和高集成度的 ADC,SGM58201 是一個(gè)理想的選擇。它不僅能提升測(cè)量系統(tǒng)的精度和穩(wěn)定性,也為高端測(cè)量應(yīng)用提供了可靠方案,助力為工業(yè)、醫(yī)療、能源等領(lǐng)域的高端測(cè)量系統(tǒng)在技術(shù)不斷
    的頭像 發(fā)表于 03-11 11:41 ?1545次閱讀
    圣邦微電子SGM58201  24位高精度Σ-Δ ADC 最高22Bits ENOB有效分辨率

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)等先進(jìn)技術(shù)提供的強(qiáng)大的數(shù)據(jù)處理和分析能力。 在視頻應(yīng)用開發(fā)中,AI Agent可以用于視頻內(nèi)容分析、推薦、編輯等。 下面跟隨作者的指導(dǎo),使用語聚
    發(fā)表于 03-05 19:52

    DEKRA德凱與聯(lián)合電子合作新臺(tái)階

    近日,DEKRA德凱為聯(lián)合汽車電子有限公司(以下簡(jiǎn)稱:UAES聯(lián)合電子)提供的ISO8800-人工智能與功能安全培訓(xùn)課程圓滿結(jié)束,并在結(jié)業(yè)儀式為通過考核的學(xué)員代表們頒發(fā)了DEKRA德凱簽發(fā)的中國(guó)首批ISO8800-人工智能與功能安全培訓(xùn)證書。
    的頭像 發(fā)表于 02-28 15:32 ?506次閱讀

    天津檢驗(yàn)中心智創(chuàng)團(tuán)隊(duì):致力于構(gòu)建全球領(lǐng)先的智能網(wǎng)聯(lián)汽車測(cè)試能力

    在剛剛過去的2024年,天津檢驗(yàn)中心新“智”突破創(chuàng)效團(tuán)隊(duì)堅(jiān)持黨建引領(lǐng),全面貫徹集團(tuán)新質(zhì)創(chuàng)效年工作任務(wù),圓滿完成各項(xiàng)工作任務(wù),實(shí)現(xiàn)部門戰(zhàn)斗力、創(chuàng)新力和凝聚力的整體提升,經(jīng)濟(jì)效益新臺(tái)階,科技創(chuàng)新實(shí)現(xiàn)
    的頭像 發(fā)表于 02-12 11:43 ?1085次閱讀

    鼎捷雅典娜接入DeepSeek大模型,加速 AI 應(yīng)用創(chuàng)新布局

    鼎捷數(shù)智(股票代碼:300378)近日宣布,DeepSeek大模型已全面集成至鼎捷IndepthAI智能體平臺(tái)及鼎捷全線智能應(yīng)用,標(biāo)志著鼎捷以“智能+”戰(zhàn)略為引領(lǐng),AI布局再上新臺(tái)階。通過接入
    的頭像 發(fā)表于 02-10 15:18 ?742次閱讀
    鼎捷雅典娜接入DeepSeek大模型,加速 <b class='flag-5'>AI</b> 應(yīng)用創(chuàng)新布局

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能對(duì)話

    顯示發(fā)送的時(shí)間戳,以便用戶了解消息的發(fā)送時(shí)間。 這個(gè)DEMO展示了如何使用ArkTS和擴(kuò)展后的ChatUI框架(或類似功能的庫)在HarmonyOS NEXT創(chuàng)建一個(gè)功能豐富的AI智能對(duì)話框。我們可以根據(jù)需要進(jìn)一步定制和擴(kuò)展這
    發(fā)表于 01-03 11:29

    AI對(duì)話魔法 Prompt Engineering 探索指南

    Engineering 就是設(shè)計(jì)和優(yōu)化與AI對(duì)話的“提示詞”或“指令”,AI能準(zhǔn)確理解并提供有用的回應(yīng)。 Prompt Engineering 主要包括以下幾個(gè)方面: 1.明確目標(biāo)
    的頭像 發(fā)表于 11-07 10:11 ?1447次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>對(duì)話</b>魔法 Prompt Engineering 探索指南

    中科曙光推動(dòng)液冷技術(shù)產(chǎn)業(yè)加速落地

    當(dāng)前,我國(guó)算力基礎(chǔ)設(shè)施建設(shè)如火如荼,算力規(guī)模不斷新臺(tái)階。算力設(shè)施的高功耗,對(duì)冷卻設(shè)備和技術(shù)提出了更高要求。傳統(tǒng)液冷數(shù)據(jù)中心面臨著三個(gè)痛點(diǎn)難題:缺乏尖端實(shí)驗(yàn)和研發(fā)環(huán)境、產(chǎn)品化能力不足
    的頭像 發(fā)表于 09-20 15:48 ?1060次閱讀

    對(duì)話藍(lán)牙技術(shù)聯(lián)盟首席執(zhí)行官Neville Meijers

    藍(lán)牙技術(shù)聯(lián)盟(Bluetooth SIG)于近日宣布Neville Meijers擔(dān)任新任首席執(zhí)行官。Neville Meijers將為藍(lán)牙技術(shù)聯(lián)盟帶來長(zhǎng)期積累的變革領(lǐng)導(dǎo)力和堅(jiān)持不懈的創(chuàng)新精神,他曾以此幫助電信和無線企業(yè)新臺(tái)階
    的頭像 發(fā)表于 09-04 09:27 ?676次閱讀

    AWS與Workday深化合作,推進(jìn)生成式AI功能開發(fā)

    在云計(jì)算與人工智能融合發(fā)展的新篇章中,亞馬遜旗下的Amazon Web Services(AWS)與領(lǐng)先的企業(yè)管理軟件提供商Workday宣布深化合作,共同探索并開發(fā)前沿的生成式人工智能(AI)功能。此次強(qiáng)強(qiáng)聯(lián)合,標(biāo)志著雙方在推動(dòng)企業(yè)客戶數(shù)字化轉(zhuǎn)型、提升運(yùn)營(yíng)效率及優(yōu)化人才管理等方面的合作
    的頭像 發(fā)表于 07-19 16:11 ?916次閱讀