嵌入式 AI
AI 簡報 20230310 期
1. 知存科技再推存算一體芯片,用AI技術(shù)推動助聽器智能化
原文:
https://mp.weixin.qq.com/s/reQvUTJlOJSqEtHGKL4QbA
2022年3月,知存科技量產(chǎn)的國際首顆存內(nèi)計算SoC芯片WTM2101正式投入市場。如今已在端側(cè)實現(xiàn)商用,提供語音、視頻等AI處理方案并幫助產(chǎn)品實現(xiàn)10倍以上的能效提升。WTM2101采用40nm工藝,是一顆擁有高算力存內(nèi)計算核的芯片,相對于NPU、DSP、MCU計算平臺、AI算力提升10-200倍,具備1.8MB權(quán)重、50Gops算力。
顧名思義,存內(nèi)計算芯片采用存算一體架構(gòu),區(qū)別于傳統(tǒng)計算架構(gòu)馮諾伊曼以計算為中心的設(shè)計,改為以數(shù)據(jù)存儲為中心的設(shè)計。由于馮諾伊曼架構(gòu)存在一定的局限性,那就是隨著CPU,或者運算單元的運算能力提高,數(shù)據(jù)傳輸并沒有跟上CPU運算頻率的同步遞增,這樣就出現(xiàn)存儲墻。
知存科技FAE總監(jiān)陸彤表示,存儲墻會帶來兩個弊端,一是時延問題,因為由數(shù)據(jù)從memory 搬到計算單元里是需要時間的,當(dāng)然也有不同的解決方法,比如采用更快的存儲單元、更寬的數(shù)據(jù)通道,或者是采用分布式的方式進行存儲。二是功耗問題,預(yù)計會占整個芯片功耗的50%-90%左右。
存算一體架構(gòu)通過在存儲體上采用不同的技術(shù),或者叫重新設(shè)計,讓存儲器件單元能直接完成乘加計算,也能存儲數(shù)據(jù),極大程度上解決了存儲墻的問題,從而大幅度提升芯片的運行效率,突破瓶頸。
WTM2101在助聽器領(lǐng)域,能夠提供增益調(diào)整、EDRC等助聽基本功能,知存科技FAE總監(jiān)陸彤介紹WTM2101在助聽領(lǐng)域更突出的價值更多還是體現(xiàn)在AI 相關(guān)應(yīng)用上,例如雙麥BF+AI-ENC降噪實現(xiàn)智能融合降噪,能夠做到11ms延時、20db降噪。WTM2101還加入了AI通透功能,能夠選擇性通透電視、音樂等有效聲音。
防嘯叫是助聽器的剛需功能,為了實現(xiàn)該功能,WTM2101除了實施傳統(tǒng)的嘯叫算法,也添加了NN抗嘯叫算法組合;在健康監(jiān)測方面,還加入了低功耗NN心率算法,并且實現(xiàn)了超低功耗標(biāo)準(zhǔn)模式50uA、運動模式為80uA。
此外,由于助聽器應(yīng)用在耳道里面,沒有什么按鍵或者其他的方式能夠操作,因此自動環(huán)境識別也是助聽器產(chǎn)品需要關(guān)注的重點,目前,業(yè)內(nèi)有廠商計劃采用語音控制的方式實現(xiàn),或者基于AI深度學(xué)習(xí)/經(jīng)典算法,進行環(huán)境音檢測。WTM2101加入了關(guān)鍵詞喚醒功能,算力約為10~20Mops。“如果從算力上來看,這些算法需要上百,甚至上G的OPS 算力需求,可能業(yè)內(nèi)其他產(chǎn)品部署起來會有算力的壓力。但WTM2101具備50Gops算力,是能夠完成這些工作的”。
在低分辨率下,當(dāng)信噪比到- 10db甚至-5db更低,佩戴者在使用助聽器時就很難區(qū)分語音。而WTM2101具備人聲增強功能,PESQ相對小算力AI算法和經(jīng)典算法提高0.4和0.5.
據(jù)了解,飛利浦在去年推出飛利浦HearLink30平臺助聽器,引入了多種AI智能技術(shù)。不難發(fā)現(xiàn),在技術(shù)的成熟下,越來越多AI技術(shù)的應(yīng)用讓助聽器變得更加智能?!癆I給助聽器帶來了很大的升級,AI在智能降噪、去嘯叫和環(huán)境識別上面有很大優(yōu)勢”,知存科技相關(guān)負責(zé)人對電子發(fā)燒友網(wǎng)表示。目前已有多款助聽器不僅僅是助聽功能,還具備健康監(jiān)測等更多功能,降噪功能也越來越強大。
2. 邊緣人工智能芯片制造商Hailo推出Hailo-15
原文:
https://mp.weixin.qq.com/s/ClhnJZkU1P9cEGfJ7CZDHA
邊緣人工智能(AI)處理器的先鋒芯片制造商Hailo今天公布了突破性的新型Hailo-15系列高性能視覺處理器,該系列旨在直接集成到智能攝像機中,在邊緣提供前所未有的視頻處理和分析。
隨著Hailo-15的推出,該公司正在重新定義智能攝像機類別,在計算機視覺和深度學(xué)習(xí)視頻處理方面設(shè)立新標(biāo)準(zhǔn),能夠在不同行業(yè)的廣泛應(yīng)用中帶來突破性的人工智能性能。
利用Hailo-15,智能城市運營商可以更迅速地檢測和應(yīng)對事件;制造商可以提高生產(chǎn)力和機器正常運行時間;零售商可以保護供應(yīng)鏈并提高客戶滿意度;交通當(dāng)局可以識別走失的兒童、事故、放錯地方的行李等各種對象。
"Hailo-15代表著在使邊緣人工智能更加可擴展和可負擔(dān)方面邁出的重要一步。"Hailo首席執(zhí)行官Orr Danon表示,"通過這次發(fā)布,我們正在利用我們在已被全球數(shù)百家客戶部署的邊緣解決方案方面的領(lǐng)先地位,我們的人工智能技術(shù)的成熟度以及我們?nèi)娴能浖准?,從而以攝像機外形尺寸實現(xiàn)高性能人工智能。"
Hailo-15 VPU系列包括三個型號:Hailo-15H、Hailo-15M和Hailo-15,以滿足智能攝像機制造商和AI應(yīng)用提供商的不同處理需求和價格點。這個VPU系列的性能達到7 TOPS(每秒萬億次運算)至驚人的20 TOPS,比目前市場上的解決方案高出5倍以上,而價格相當(dāng)。所有Hailo-15 VPU都支持4K分辨率的多輸入流,將強大的CPU和DSP子系統(tǒng)與Hailo經(jīng)過現(xiàn)場驗證的AI核心相結(jié)合。
通過在攝像機中引入優(yōu)異的人工智能功能,Hailo正在滿足市場上對增強邊緣視頻處理和分析能力的日益增長的需求。憑借這種無與倫比的人工智能能力,搭載Hailo-15的攝像機可以進行明顯更多的視頻分析,并行運行多個人工智能任務(wù),包括更快的高分辨率檢測,從而能夠識別更小、更遠的對象,并具有更高的準(zhǔn)確性和更少的錯誤警報。
例如,Hailo-15H能夠在高輸入分辨率(1280x1280)下以實時傳感器速率運行最先進的對象檢測模型YoloV5M6,或以非凡的700 FPS運行行業(yè)分類模型基準(zhǔn)ResNet-50。
通過這個高性能人工智能視覺處理器系列,Hailo率先在攝像機中使用基于視覺的transformers進行實時對象檢測。增加的人工智能能力還可用于視頻增強和低光環(huán)境下的更優(yōu)視頻質(zhì)量,實現(xiàn)視頻穩(wěn)定和高動態(tài)范圍性能。
3. AI算力芯片:人工智能核心底座,7年空間13倍,國產(chǎn)替代之關(guān)鍵
原文:https://baijiahao.baidu.com/s?id=1759514012109489440&wfr=spider&for=pc
還記得這張把谷歌AI搞得團團轉(zhuǎn)的經(jīng)典梗圖嗎?
每一次科技創(chuàng)新浪潮都是突破某一項生產(chǎn)力要素,從而提升人類生產(chǎn)效率。
人工智能引領(lǐng)著新一輪科技革命,而生成式AI的出現(xiàn),真正賦予了人工智能大規(guī)模落地的場景,有望在更高層次輔助甚至代替人類工作,提升人類生產(chǎn)效率。
今年,生成式AI代表產(chǎn)品ChatGPT所產(chǎn)生的鯰魚效應(yīng)持續(xù)發(fā)酵,引發(fā)市場廣泛關(guān)注。
深入了解后能夠發(fā)現(xiàn),生成式AI競爭的焦點主要有兩個,一是巨大參數(shù)量、超大規(guī)模的AI模型,二是提供超強算力的AI芯片,兩者缺一不可。
市場也逐漸意識到,人工智能的競爭是巨頭之間的競爭,巨額研發(fā)投入迫使小公司聚焦于上層應(yīng)用,同時,底層算力支撐愈發(fā)關(guān)鍵,沒有扎實的底盤,上層建筑皆是空中樓閣。
不僅在人工智能,在整個數(shù)字經(jīng)濟當(dāng)中,下游技術(shù)應(yīng)用的實現(xiàn),都離不開算力。
算力,是國內(nèi)的短板,而國際供應(yīng)鏈問題愈發(fā)凸顯,算力不足的問題可能顯現(xiàn),不僅對人工智能有影響,還將影響整個數(shù)字經(jīng)濟,所以,算力芯片成為突圍關(guān)鍵點。
AI算力芯片需求激增
AI算力進入大模型時代,大模型的實現(xiàn)需要強大的算力來支撐訓(xùn)練和推理過程。比如Open AI,微軟專門為其打造了一臺超級計算機,專門用來在Azure公有云上訓(xùn)練超大規(guī)模的人工智能模型
這臺超級計算機擁有28.5萬個CPU核心,超過1萬顆GPU(英偉達 V100 GPU),按此規(guī)格,如果自建IDC,以英偉達A100 GPU芯片替代V100 GPU芯片,依照性能換算,大約需要3000顆A100 GPU芯片。
想要了解更多內(nèi)容,請點擊查看原文。
4. 全方位分析大模型參數(shù)高效微調(diào),清華研究登Nature子刊
原文:
https://mp.weixin.qq.com/s/wHc87AZafnRp8eMFOJxPoA
近年來,清華大學(xué)計算機系孫茂松團隊深入探索語言大模型參數(shù)高效微調(diào)方法的機理與特性,與校內(nèi)其他相關(guān)團隊合作完成的研究成果 “面向大規(guī)模預(yù)訓(xùn)練語言模型的參數(shù)高效微調(diào)”(Parameter-efficient Fine-tuning of Large-scale Pre-trained Language Models)3 月 2 日在《自然?機器智能》(Nature Machine Intelligence)上發(fā)表。該研究成果由計算機系孫茂松、李涓子、唐杰、劉洋、陳鍵飛、劉知遠和深圳國際研究生院鄭海濤等團隊師生共同完成,劉知遠、鄭海濤、孫茂松為該文章的通訊作者,清華大學(xué)計算機系博士生丁寧(導(dǎo)師鄭海濤)與秦禹嘉(導(dǎo)師劉知遠)為該文章的共同第一作者。
論文鏈接:https://www.nature.com/articles/s42256-023-00626-4
OpenDelta 工具包:https://github.com/thunlp/OpenDelta
2018 年以來,預(yù)訓(xùn)練語言模型 (PLM) 及其 “預(yù)訓(xùn)練 - 微調(diào)” 方法已成為自然語言處理(NLP)任務(wù)的主流范式,該范式先利用大規(guī)模無標(biāo)注數(shù)據(jù)通過自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練語言大模型,得到基礎(chǔ)模型,再利用下游任務(wù)的有標(biāo)注數(shù)據(jù)進行有監(jiān)督學(xué)習(xí)微調(diào)模型參數(shù),實現(xiàn)下游任務(wù)的適配。
隨著技術(shù)的發(fā)展,PLM 已經(jīng)毫無疑問地成為各種 NLP 任務(wù)的基礎(chǔ)架構(gòu),而且在 PLM 的發(fā)展中,呈現(xiàn)出了一個似乎不可逆的趨勢:即模型的規(guī)模越來越大。更大的模型不僅會在已知任務(wù)上取得更好的效果,更展現(xiàn)出了完成更復(fù)雜的未知任務(wù)的潛力。
然而,更大的模型也在應(yīng)用上面臨著更大的挑戰(zhàn),傳統(tǒng)方法對超大規(guī)模的預(yù)訓(xùn)練模型進行全參數(shù)微調(diào)的過程會消耗大量的 GPU 計算資源與存儲資源,巨大的成本令人望而卻步。這種成本也造成了學(xué)術(shù)界中的一種 “慣性”,即研究者僅僅在中小規(guī)模模型上驗證自己的方法,而習(xí)慣性地忽略大規(guī)模模型。
在本文的統(tǒng)計中,我們隨機選取了 1000 篇來自最近五個 NLP 會議的論文,發(fā)現(xiàn)使用預(yù)訓(xùn)練模型已經(jīng)成為了研究的基本范式,但涉及大模型的卻寥寥無幾(如圖 1 所示)。
在這樣的背景下,一種新的模型適配方案,參數(shù)高效(Parameter-efficient) 方法逐漸受到關(guān)注,與標(biāo)準(zhǔn)全參數(shù)微調(diào)相比,這些方法僅微調(diào)模型參數(shù)的一小部分,而其余部分保持不變,大大降低了計算和存儲成本,同時還有著可以媲美全參數(shù)微調(diào)的性能。我們認為,這些方法本質(zhì)上都是在一個 “增量”(Delta Paremters)上進行調(diào)整,因此將它命名為 Delta Tuning。
在本文中,我們定義和描述了 Delta Tuning 問題,并且通過一個統(tǒng)一的框架對以往的研究進行梳理回顧。在這個框架中,現(xiàn)有的 Delta Tuning 方法可以被分為三組:增量式(Addition-based)、指定式(Specification-based)和重參數(shù)化(Reparameterization)的方法。
除去實踐意義之外,我們認為它還具有非常重要的理論意義,Delta Tuning 在某種程度上昭示著大模型的背后機理,有助于我們進一步發(fā)展面向大模型甚至深度神經(jīng)網(wǎng)絡(luò)的理論。為此,我們從優(yōu)化和最優(yōu)控制兩個角度,提出理論框架去討論 Delta Tuning,以指導(dǎo)后續(xù)的結(jié)構(gòu)和算法設(shè)計。此外,我們對代表性方法進行了全面的實驗對比,并在超過 100 個 NLP 任務(wù)的結(jié)果展示了不同方法的綜合性能比較。實驗結(jié)果涵蓋了對 Delta Tuning 的性能表現(xiàn)、收斂表現(xiàn)、高效性表現(xiàn)、Power of Scale、泛化表現(xiàn)、遷移性表現(xiàn)的研究分析。我們還開發(fā)了一個開源工具包 OpenDelta,使從業(yè)者能夠高效、靈活地在 PLM 上實現(xiàn) Delta Tuning。
方法優(yōu)勢:
快速訓(xùn)練與存儲空間節(jié)省。Transformer 模型雖然本質(zhì)上是可并行化的,但由于其龐大的規(guī)模,訓(xùn)練起來非常緩慢。盡管 Delta Tuning 的收斂速度可能比傳統(tǒng)的全參數(shù)微調(diào)慢,但隨著反向傳播期間可微調(diào)參數(shù)的計算量顯著減少,Delta Tuning 的訓(xùn)練速度也得到了顯著提升。以前的研究已經(jīng)驗證了,使用 Adapter 進行下游調(diào)優(yōu)可以將訓(xùn)練時間減少到 40%,同時保持與全參數(shù)微調(diào)相當(dāng)?shù)男阅?。由于輕量的特性,訓(xùn)練得到的 Delta 參數(shù)還可以節(jié)省存儲空間,從而方便在從業(yè)者之間共享,促進知識遷移。
多任務(wù)學(xué)習(xí)。構(gòu)建通用的人工智能系統(tǒng)一直是研究人員的目標(biāo)。最近,超大型 PLM (例如 GPT-3) 已經(jīng)展示了同時擬合不同數(shù)據(jù)分布和促進各種任務(wù)的下游性能的驚人能力。因此,在大規(guī)模預(yù)訓(xùn)練時代,多任務(wù)學(xué)習(xí)受到越來越多的關(guān)注。作為全參數(shù)微調(diào)方法的有效替代,Delta Tuning 具有出色的多任務(wù)學(xué)習(xí)能力,同時保持相對較低的額外存儲。成功的應(yīng)用包括多語言學(xué)習(xí)、閱讀理解等。此外,Delta Tuning 也有望作為持續(xù)學(xué)習(xí)中災(zāi)難性遺忘的潛在解決方案。在預(yù)訓(xùn)練期間獲得的語言能力存儲在模型的參數(shù)中。因此,當(dāng) PLM 在一系列任務(wù)中按順序進行訓(xùn)練時,在沒有正則化的情況下更新 PLM 中的所有參數(shù)可能會導(dǎo)致嚴重的災(zāi)難性的遺忘。由于 Delta Tuning 僅調(diào)整最小參數(shù),因此它可能是減輕災(zāi)難性遺忘問題的潛在解決方案。
中心化模型服務(wù)和并行計算。超大型 PLM 通常作為服務(wù)發(fā)布,即用戶通過與模型提供者公布的 API 交互來使用大模型,而不是本地存儲大模型??紤]到用戶和服務(wù)提供商之間難以承受的通信成本,由于其輕量級的特性,Delta Tuning 顯然是比傳統(tǒng)全參數(shù)微調(diào)更具競爭力的選擇。一方面,服務(wù)提供商可以支持訓(xùn)練多個用戶所需的下游任務(wù),同時消耗更少的計算和存儲空間。此外,考慮到一些 Delta Tuning 算法本質(zhì)上是可并行的(例如 Prompt Tuning 和 Prefix-Tuning 等),因此 Delta Tuning 可以允許在同一個 batch 中并行訓(xùn)練 / 測試來自多個用戶的樣本(In-batch Parallel Computing)。最近的工作還表明,大多數(shù) Delta Tuning 方法,如果本質(zhì)上不能并行化,也可以通過一些方法修改以支持并行計算。另一方面,當(dāng)中心的達模型的梯度對用戶不可用時,Delta Tuning 仍然能夠通過無梯度的黑盒算法,僅調(diào)用模型推理 API 來優(yōu)化大型 PLM。
更多的細節(jié),請點擊鏈接查看原文。
5. 目標(biāo)檢測中正負樣本的問題經(jīng)驗分析
https://mp.weixin.qq.com/s/9C7mszKErCCoSs0sYB3YcA
1. 什么是正負樣本?
對于像YOLO系列的結(jié)構(gòu),正負樣本就是feature map上的每一個grid cell(或者說對應(yīng)的anchor)。
對于像RCNN系列的結(jié)構(gòu),RPN階段定義的正負樣本其實和YOLO系列一樣,也是每一個grid cell。RCNN階段定義的正負樣本是RPN模塊輸出的一個個proposals,即感興趣區(qū)域(region of interesting,roi),最后會用RoIPooling或者RoIAlign對每一個proposal提取特征,變成區(qū)域特征,這和grid cell中的特征是不一樣的。
對于DETR系列,正負樣本就是Object Queries,與gt是嚴格的一對一匹配。而YOLO,RCNN是可以多對一的匹配。
通常情況下,檢測問題會涉及到3種不同性質(zhì)的樣本:
正樣本(positive)
對于positive,一旦判定某個grid cell或者proposal是正樣本,你就需要對其負責(zé)cls+bbox的訓(xùn)練。
忽略樣本(ignore)
ignore最大的用處就是可以處理模棱兩可的樣本,以及影響模型訓(xùn)練的樣本。所以對于ignore,對其不負責(zé)任何訓(xùn)練,或者對其負責(zé)bbox的訓(xùn)練,但是不負責(zé)cls的訓(xùn)練。
負樣本(negative)
對于negative,只負責(zé)cls的訓(xùn)練,不負責(zé)bbox的訓(xùn)練。
2. 怎么定義哪些是正樣本/ignore/負樣本
常規(guī)使用的方法:
借助每個grid cell中人為設(shè)置的anchor,計算其與所有g(shù)t(ground truth)的iou,通過iou的信息來判定每個grid cell屬于positive/ignore/negative哪種。
以當(dāng)前gt為中心的一定范圍內(nèi),去判定每個grid cell屬于哪種樣本。
在具體的自動駕駛量產(chǎn)項目中,往往會根據(jù)實際需求,比如對precision和recall的要求,在與gt匹配的邏輯中,會從類別、大小等角度去考慮,另外還會考慮特殊標(biāo)記的gt框(hard、dontcare)。
有以下幾個原則:
-
數(shù)量少的類別A,為其盡可能匹配適當(dāng)多一點的anchor,數(shù)量多的類別B,為其匹配少量且高質(zhì)量的anchor。這樣做目的是提高A的recall,提高B的precision,保證每個batch中,各類別間生成的正樣本數(shù)量趨于1:1
-
為小目標(biāo)匹配高質(zhì)量的anchor,忽略其周圍低質(zhì)量的anchor。這樣做是為了減少小目標(biāo)的誤檢,可能在一定程度上犧牲了召回。
-
對于中大目標(biāo),就要考慮具體那個類別的數(shù)量了,數(shù)量少的類別匹配多一點,數(shù)量多就少匹配。
-
對于特殊標(biāo)記的gt框,如hard、dontcare, 如果一些負樣本和這些hard、dontcare強相關(guān),那么把這些負樣本變成ignore,避免讓樣本間產(chǎn)生歧義。
正負樣本的定義過程是一個迭代的過程,會根據(jù)模型的實際訓(xùn)練過程以及測試效果來動態(tài)調(diào)整,比如模型對某個類recall偏低,那么此時我們就要增加該類生成正樣本的數(shù)量了。
定義的過程就是將正負樣本嚴格區(qū)分開,為后續(xù)的采樣提供方便,如下圖,將從正樣本過渡到負樣本的這些樣本歸入ignore。
3. 采樣哪些正負樣本參與訓(xùn)練
個人認為:該部分是訓(xùn)練檢測模型最為核心的部分,直接決定模型最后的性能。理解正負樣本的訓(xùn)練,實質(zhì)是理解正負樣本的變化是如何影響precision和recall的。
我們先考慮3個基本問題,對于某個類別gt:
-
假設(shè)我們希望precision=1,不考慮recall,那么屬于該gt的并且參與訓(xùn)練的正負樣本理想情況會是什么樣的?
正樣本:數(shù)量越多越好,并且質(zhì)量越高越好。
負樣本:多樣性越豐富越好,數(shù)量越多越好(實際已經(jīng)滿足數(shù)量多的情況)。
-
假設(shè)我們希望recall=1,不考慮precision呢?
正樣本:數(shù)量越多越好。
負樣本:數(shù)量為0最好。
-
現(xiàn)在我們希望precision=1, recall=1呢?
正樣本:數(shù)量越多越好,并且質(zhì)量越高越好。
負樣本:多樣性越豐富越好,并且數(shù)量越多越好。
從以上3個問題分析得到,對于某個類別的gt,屬于該gt的正樣本中,數(shù)量和質(zhì)量是矛盾的。數(shù)量越多,那么質(zhì)量必然下降,recall會偏高,precision會偏低。反之,數(shù)量越少,質(zhì)量會高,但是recall會偏低,precision會偏高。對于負樣本來說,要求它數(shù)量越多,并且多樣性越豐富,這并不矛盾,實際是可以做到這點。
有人會問,不看mAP嗎?
mAP是綜合衡量了recall從0到1變化的過程中(實際recall達不到1),precision的變化曲線,mAP并不直觀,實際把mAP當(dāng)做其中一個衡量指標(biāo)而已。
所以,我們采樣的目標(biāo)就是:
正樣本:質(zhì)量高,數(shù)量適當(dāng)
負樣本:多樣性越豐富,數(shù)量適當(dāng)(或者說是正樣本數(shù)量的n倍,n一般取值[3,10])
一般情況下,定義的那些正樣本都會采樣參與訓(xùn)練,負樣本就隨機采樣一些去訓(xùn)練。但在訓(xùn)練的過程中你需要考慮幾點:
-
定義的那些正樣本,模型真的都能搞定嗎?
在量產(chǎn)級的數(shù)據(jù)集中,往往會有百千萬量級的目標(biāo),雖然在定義正樣本的時候考慮到了很多因素,但是面對百千萬量級的目標(biāo),往往會存在一定比例的正樣本,模型壓根就學(xué)不會,訓(xùn)練后期模型loss就在一個小區(qū)間里震蕩,所以我們就要對這些樣本做進一步處理,把其歸為ignore,減少他們對模型訓(xùn)練的影響。
對于FN(漏檢),我們就要根據(jù)具體的需求分析這些FN到底是否需要檢出,如果需要檢出,就需要調(diào)整定義這些FN的正樣本的匹配邏輯,讓其產(chǎn)生適合訓(xùn)練的正樣本。
-
面對數(shù)量眾多的負樣本,怎么針對性的采樣(適應(yīng)自己的項目)。
其實在項目前期,負樣本的采樣可以選擇隨機,但當(dāng)你進行大量路采數(shù)據(jù)測試后,總結(jié)發(fā)現(xiàn)模型輸出的FP,比如,發(fā)現(xiàn)模型輸出大框背景的頻次偏高,那么這個時候我們就要改變隨機采樣負樣本的策略,就要針對性的增加小分辨率feature map上的負樣本的采樣。如果模型經(jīng)常把特定背景(樹尖,房屋)檢測為目標(biāo),那么我們需要1. 檢查gt的標(biāo)注質(zhì)量。2. 想辦法采樣到這類的負樣本參與訓(xùn)練。
-
盡可能保證每個batch中,類別間采樣的正樣本比例為1:1。
在量產(chǎn)級數(shù)據(jù)中,因為是實車采集,往往會出現(xiàn)類別不均衡現(xiàn)象,隨著數(shù)據(jù)量的不斷增加,這種不均衡會被嚴重放大,如果直接采樣全部正樣本采樣訓(xùn)練,模型很可能出現(xiàn)precision和recall偏向類別多的那個類,比如類A,這個時候就需要考慮適當(dāng)降低類A的采樣,同時考慮適當(dāng)增加類B類C的采樣訓(xùn)練,來達成類別間正樣本的比例接近1:1。
所以,正負樣本的采樣是根據(jù)當(dāng)前模型的檢測效果來動態(tài)改變優(yōu)化的,但是不管怎么改變,對正負樣本的采樣不會偏離理想狀態(tài)的,只不過離理想狀態(tài)的距離由自己手頭的數(shù)據(jù)集標(biāo)注質(zhì)量決定。
6. 微軟:多模態(tài)大模型GPT-4就在下周,撞車百度?
原文:
https://mp.weixin.qq.com/s/Se3xzcF6rtgcI7YXYgDZ8Q
我們知道,引爆如今科技界軍備競賽的 ChatGPT 是在 GPT-3.5 上改進得來的,OpenAI 很早就預(yù)告 GPT-4 將會在今年發(fā)布。最近各家大廠爭相入局的行動似乎加快了這個進程。
最新消息是,萬眾期待的 GPT-4 下周就要推出了:在 3 月 9 日舉行的一場名為「AI in Focus - Digital Kickoff」的線下活動中,四名微軟德國員工展示了 GPT 系列等大型語言模型(LLM)的顛覆性力量,以及 OpenAI 技術(shù)應(yīng)用于 Azure 產(chǎn)品的詳細信息。
在活動中,微軟德國首席技術(shù)官 Andreas Braun 表示 GPT-4 即將發(fā)布,自從 3 月初多模態(tài)模型 Kosmos-1 發(fā)布以來,微軟一直在測試和調(diào)整來自 OpenAI 的多模態(tài)模型。
GPT-4,下周就出
「我們將在下周推出 GPT-4,它是一個多模態(tài)的模型,將提供完全不同的可能性 —— 例如視頻(生成能力),」Braun 說道,他將語言大模型形容為游戲規(guī)則改變者,因為人們在這種方法之上讓機器理解自然語言,機器就能以統(tǒng)計方式理解以前只能由人類閱讀和理解的內(nèi)容。
與此同時,這項技術(shù)已經(jīng)發(fā)展到基本上「適用于所有語言」:你可以用德語提問,然后用意大利語得到答案。借助多模態(tài),微軟和 OpenAI 將使「模型變得全面」。
改變業(yè)界
微軟德國公司首席執(zhí)行官 Marianne Janik 全面談到了人工智能對業(yè)界的顛覆性影響。Janik 強調(diào)了人工智能的價值創(chuàng)造潛力,并表示,當(dāng)前的人工智能發(fā)展和 ChatGPT 是「iPhone 發(fā)布一樣的時刻」。她表示,這不是要代替人類工作,而是幫助人們以不同于以往的方式完成重復(fù)性任務(wù)。
改變并不一定意味著失業(yè)。Janik 強調(diào)說,這意味著「許多專家會開始利用 AI 實現(xiàn)價值增長」。傳統(tǒng)的工作行為正在發(fā)生變化,由于新的可能性出現(xiàn),也會產(chǎn)生全新的職業(yè)。她建議公司成立內(nèi)部「能力中心」,培訓(xùn)員工使用人工智能并將想法整合到項目中。
此外,Janik 還強調(diào),微軟不會使用客戶的數(shù)據(jù)來訓(xùn)練模型(但值得注意是,根據(jù) ChatGPT 的政策,這不會或至少不會適用于他們的研究合作伙伴 OpenAI)。
實際用例
微軟的兩位 AI 技術(shù)專家 Clemens Sieber 和 Holger Kenn 提供了關(guān)于 AI 實際使用的一些信息。他們的團隊目前正在處理具體的用例,他們講解了用例涉及的技術(shù)。
Kenn 解釋了什么是多模態(tài)人工智能,它不僅可以將文本相應(yīng)地翻譯成圖像,還可以翻譯成音樂和視頻。除了 GPT-3.5 模型之外,他還談到了嵌入,用于模型中文本的內(nèi)部表征。根據(jù) Kenn 的說法,「負責(zé)任」的 AI 已經(jīng)內(nèi)置到微軟的產(chǎn)品中,并且可以通過云將數(shù)百萬個查詢映射到 API 中。
Clemens Siebler 則用用例說明了今天已經(jīng)成為可能的事情,例如可以把電話呼叫的語音直接記錄成文本。根據(jù) Siebler 的說法,這可以為微軟在荷蘭的一家大型客戶每天節(jié)省 500 個工作小時。該項目的原型是在兩個小時內(nèi)創(chuàng)建的,一個開發(fā)人員在兩周內(nèi)完成了該項目。據(jù)他介紹,三個最常見的用例是回答只有員工才能訪問的公司信息、AI 輔助文檔處理和在呼叫中心處理口語的半自動化。
微軟表示人們很快就會與其全新的 AI 工具見面。特別是在編程領(lǐng)域,Codex 和 Copilot 等模型可以更輕松地創(chuàng)建代碼,令人期待。
當(dāng)被問及操作可靠性和事實保真度時,Siebler 表示 AI 不會總是正確回答,因此有必要進行驗證。微軟目前正在創(chuàng)建置信度指標(biāo)來解決此問題。通常,客戶僅在自己的數(shù)據(jù)集上使用 AI 工具,主要用于閱讀理解和查詢庫存數(shù)據(jù),在這些情況下,模型已經(jīng)相當(dāng)準(zhǔn)確。然而,模型生成的文本仍然是生成性的,因此不容易驗證。Siebler 表示微軟圍繞生成型 AI 建立了一個反饋循環(huán),包括贊成和反對,這是一個迭代的過程。
看來在 AI 大模型的競爭中,領(lǐng)先的一方也加快了腳步。微軟在過去一周左右接連發(fā)布了展示多模態(tài)的語言大模型論文 Kosmos-1 和 Visual ChatGPT,這家公司顯然非常支持多模態(tài),希望能夠做到使感知與 LLM 保持一致,如此一來就能讓單個 AI 模型看文字圖片,也能「說話」。
微軟的下次 AI 活動選在了 3 月 16 日,CEO 薩蒂亞?納德拉將親自上臺演講,不知他們是否會在這次活動上發(fā)布 GPT-4。有趣的是,微軟的活動和百度推出文心一言選在了同一天。
距離 3 月 16 日百度推出類 ChatGPT 聊天機器人還有一周時間,最近有報道稱,百度正在抓緊時間趕在發(fā)布最后期限前完成任務(wù)。目前看來,百度打算分階段推出文心一言的各項功能,并首先向部分用戶開放公測。知情人士稱,在春節(jié)假期過后,李彥宏就要求包括自動駕駛部門在內(nèi)的全公司 AI 研究團隊將英偉達 A100 支援給文心一言的開發(fā)。
7. 谷歌報復(fù)性砸出5620億參數(shù)大模型!比ChatGPT更恐怖,機器人都能用,學(xué)術(shù)圈已刷屏
原文:https://mp.weixin.qq.com/s/Se3xzcF6rtgcI7YXYgDZ8Q
為應(yīng)對新一輪技術(shù)競賽,谷歌還在不斷出后手。
這兩天,一個名叫PaLM-E的大模型在AI學(xué)術(shù)圈瘋狂刷屏。
它能只需一句話,就讓機器人去廚房抽屜里拿薯片。即便是中途干擾它,它也會堅持執(zhí)行任務(wù)。
PaLM-E擁有5620億參數(shù),是GPT-3的三倍多,號稱史上最大規(guī)模視覺語言模型。而它背后的打造團隊,正是谷歌和柏林工業(yè)大學(xué)。
作為一個能處理多模態(tài)信息的大模型,它還兼具非常強的邏輯思維。
比如能從一堆圖片里,判斷出哪個是能滾動的。
還會看圖做算數(shù):
有人感慨:
這項工作比ChatGPT離AGI更近一步啊!
而另一邊,微軟其實也在嘗試ChatGPT指揮機器人干活。
這么看,谷歌是憑借PaLM-E一步到位了?
邏輯性更強的大模型
PaLM-E是將PaLM和ViT強強聯(lián)合。
5620億的參數(shù)量,其實就是如上兩個模型參數(shù)量相加而來(5400億+220億)。
PaLM是谷歌在22年發(fā)布的語言大模型,它是Pathways架構(gòu)訓(xùn)練出來的,能通過“思考過程提示”獲得更準(zhǔn)確的邏輯推理能力,減少AI生成內(nèi)容中的錯誤和胡言亂語。
Pathways是一種稀疏模型架構(gòu),是谷歌AI這兩年重點發(fā)展方向之一,目標(biāo)就是訓(xùn)練出可執(zhí)行成千上百種任務(wù)的通用模型。
ViT是計算機視覺領(lǐng)域的經(jīng)典工作了,即Vision Transformer。
兩者結(jié)合后,PaLM-E可以處理多模態(tài)信息。包括:
-
語言
-
圖像
-
場景表征
-
物體表征
通過加一個編碼器,模型可以將圖像或傳感器數(shù)據(jù)編碼為一系列與語言標(biāo)記大小相同的向量,將此作為輸入用于下一個token預(yù)測,進行端到端訓(xùn)練。
具體能力方面,PaLM-E表現(xiàn)出了比較強的邏輯性。
比如給它一張圖片,然后讓它根據(jù)所看到的做出蛋糕。
模型能先判斷出圖像中都有什么,然后分成9步講了該如何制作蛋糕,從最初的磕雞蛋到最后洗碗都包括在內(nèi)。
再次驗證大力出奇跡
目前這項研究已引發(fā)非常廣泛的討論。
主要在于以下幾個方面:
1、一定程度上驗證了“大力出奇跡”
2、比ChatGPT更接近AGI?
一方面,作為目前已知的規(guī)模最大的視覺語言模型,PaLM-E的表現(xiàn)已經(jīng)足夠驚艷了。
去年,DeepMind也發(fā)布過一個通才大模型Gota,在604個不同的任務(wù)上接受了訓(xùn)練。
但當(dāng)時有很多人認為它并不算真正意義上的通用,因為研究無法證明模型在不同任務(wù)之間發(fā)生了正向遷移。
論文作者表示,這或許是因為模型規(guī)模還不夠大。
如今,PaLM-E似乎完成了這一論證。
不過也有聲音擔(dān)心,這是不是把卷參數(shù)從NLP引到了CV圈?
另一方面,是從大趨勢上來看。
有人表示,這項工作看上去要比ChatGPT更接近AGI啊。
的確,用ChatGPT還只是提供文字建議,很多具體動手的事還要自己來。
但PaLM-E屬于把大模型能力拉入到具象化層面,AI和物理世界之間的結(jié)界要被打破了。
而且這個趨勢顯然也是大家都在琢磨的,微軟前不久也發(fā)布了一項非常相似的工作——讓ChatGPT指揮機器人。
除此之外,還有很多人表示,這再一次驗證了多模態(tài)是未來。
不過,這項成果現(xiàn)在只有論文和demo發(fā)布,真正能力有待驗證。
此外還有人發(fā)現(xiàn),模型驅(qū)動的機器人,背后的開發(fā)團隊在幾周前被谷歌一鍋端了。。。
———————End———————
RT-Thread線下入門培訓(xùn)
如果你愿意在所在城市協(xié)調(diào)組織活動(包括尋找合適場地或主持或宣傳),請掃碼填寫以下合作信息,我們將盡快聯(lián)系你;
如果你愿意在所在城市為活動提供場地的支持(場地需要有投影等設(shè)備),請掃碼填寫以下合作信息,我們將盡快聯(lián)系你;
如果你愿意為活動提供禮品/板卡贊助,請掃碼填寫以下合作信息,我們將盡快聯(lián)系你;
巡回城市:青島、北京、西安、成都、武漢、鄭州、杭州、深圳
你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進RT-Thread官方微信交流群!
你也可以把文章轉(zhuǎn)給學(xué)校老師、公司領(lǐng)導(dǎo)等相關(guān)人員,讓RT-Thread可以惠及更多的開發(fā)者
原文標(biāo)題:【AI簡報20230310】知存科技再推存算一體芯片、微軟:多模態(tài)大模型GPT-4就在下周
文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
32文章
1406瀏覽量
41908 -
大模型
+關(guān)注
關(guān)注
2文章
3138瀏覽量
4058
原文標(biāo)題:【AI簡報20230310】知存科技再推存算一體芯片、微軟:多模態(tài)大模型GPT-4就在下周
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
緩解高性能存算一體芯片IR-drop問題的軟硬件協(xié)同設(shè)計

蘋芯科技 N300 存算一體 NPU,開啟端側(cè) AI 新征程

知存科技產(chǎn)學(xué)研融合戰(zhàn)略再啟新篇
存算一體行業(yè)2024年回顧與2025年展望
知存科技詹慕航:AI蓬勃發(fā)展,存算一體走向AI芯片的主流架構(gòu)

直播預(yù)約 |開源芯片系列講座第24期:SRAM存算一體:賦能高能效RISC-V計算

存算一體化與邊緣計算:重新定義智能計算的未來

知存科技榮獲2024中國AI算力層創(chuàng)新企業(yè)
存算一體架構(gòu)創(chuàng)新助力國產(chǎn)大算力AI芯片騰飛
科技新突破:首款支持多模態(tài)存算一體AI芯片成功問世

云知聲推出山海多模態(tài)大模型
蘋芯科技引領(lǐng)存算一體技術(shù)革新 PIMCHIP系列芯片重塑AI計算新格局

評論