99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用CUTLASS實現(xiàn)高性能矩陣乘法

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規(guī)模上實現(xiàn)高性能矩陣乘法( GEMM )。它結(jié)合了分層分解和數(shù)據(jù)移動的策略,類似于用于實現(xiàn)cuBLAS的策略。

CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設(shè)備范圍的原語可以通過自定義平鋪大小、數(shù)據(jù)類型和其他算法策略進行專門化和調(diào)優(yōu)。由此產(chǎn)生的靈活性簡化了它們在定制內(nèi)核和應(yīng)用程序中作為構(gòu)建塊的使用。

為了支持多種應(yīng)用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數(shù)據(jù)移動,并為以下各項提供了多重累積抽象:

半精度浮點(FP16)、 BFloat16 (BF16)和張量浮點 32 (TF32)數(shù)據(jù)類型。

單精度浮點(FP32)數(shù)據(jù)類型。

雙精度浮點(FP64)數(shù)據(jù)類型。

整數(shù)數(shù)據(jù)類型(4b和8b)。

二進制數(shù)據(jù)類型(1b)。

此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結(jié)構(gòu)上實現(xiàn)的可編程高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實現(xiàn)了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優(yōu)化的 warp-wide GEMM 組件和以下組件來構(gòu)建卷積。

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學位。計算機工程學位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106366
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    122

    瀏覽量

    14121
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    高性能低功耗雙核Wi-Fi6+BLE5.3二合一

    隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,無線通信模塊在各種應(yīng)用場景中扮演著越來越重要的角色。近日,藍科迅通科技宣布推出一款基于Nordic Semiconductor的Wi-Fi 6芯片nRF7002和高性能雙核
    發(fā)表于 06-28 21:42

    矩陣變換器在異步電機直接轉(zhuǎn)矩控制中的應(yīng)用

    方式將矩陣式變換器的良好性能和直接轉(zhuǎn)矩控制的優(yōu)點結(jié)合在一起,實現(xiàn)了并步電動機較好的調(diào)控性能,提高了交流調(diào)速性能并滿足節(jié)能要求。仿真結(jié)果表明:
    發(fā)表于 06-05 11:21

    ADA-28F00WG乘法器Marki

    ADA-28F00WG是一種高性能的模擬乘法器,能夠?qū)蓚€輸入信號(電壓或電流)進行乘法運算,并輸出其結(jié)果。ADA-28F00WG乘法器采用高質(zhì)量材料制造,并結(jié)合了最新的肖特基二極管和
    發(fā)表于 02-12 09:25

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應(yīng)用開發(fā)熱度高漲,數(shù)量激增。但在三方應(yīng)用鴻蒙化進程中,性能問題頻出。為此,HarmonyOS NEXT推出了一整套原生頁面高性能解決方案,包括
    發(fā)表于 01-02 18:00

    賽昉聯(lián)合國芯推出高性能AI MCU芯片,實現(xiàn)RISC-V+AI新應(yīng)用

    近日,賽昉科技與蘇州國芯科技有限公司(以下簡稱“國芯科技”)合作研發(fā)的高性能AIMCU芯片產(chǎn)品CCR7002已成功通過了內(nèi)部性能和功能測試,實現(xiàn)了RISC-V+AI技術(shù)的新應(yīng)用。賽昉科技將與國芯
    的頭像 發(fā)表于 11-27 11:46 ?1068次閱讀
    賽昉聯(lián)合國芯推出<b class='flag-5'>高性能</b>AI MCU芯片,<b class='flag-5'>實現(xiàn)</b>RISC-V+AI新應(yīng)用

    XD08M3232紅外感應(yīng)單片機擁有哪些配置實現(xiàn)高性能處理能力

    的應(yīng)用,自帶恒流驅(qū)動電路可以避免光衰等問題,確保輸入信號的穩(wěn)定性。穩(wěn)定的輸入信號有助于后續(xù)的信號處理,減少因信號波動而帶來的額外處理負擔,使得單片機可以更高效地對數(shù)據(jù)進行處理,從而有助于實現(xiàn)高性能的處理能力
    發(fā)表于 11-23 15:08

    精密脈沖焊接技術(shù)的革新:探究高性能精密脈沖焊接電源的應(yīng)用與實現(xiàn)

    隨著科技的發(fā)展和制造業(yè)對高品質(zhì)、高精度焊接需求的增長,精密脈沖焊接技術(shù)在工業(yè)生產(chǎn)中的地位愈發(fā)重要。本文將深入探討高性能精密脈沖焊接電源的應(yīng)用及其在實際工程中的實現(xiàn)路徑。 一、引言 精密
    的頭像 發(fā)表于 11-16 09:27 ?1115次閱讀

    新型高性能阻尼器的特點

    高性能阻尼器的工作原理 新型高性能阻尼器的工作原理主要基于能量耗散原理。它們通過將振動能量轉(zhuǎn)化為熱能或其他形式的能量,從而減少結(jié)構(gòu)的振動響應(yīng)。這些阻尼器的設(shè)計通常包括粘彈性材料、金屬部件和特殊結(jié)構(gòu),以實現(xiàn)最佳的振動吸收效
    的頭像 發(fā)表于 11-14 10:49 ?764次閱讀

    AI高性能計算平臺是什么

    AI高性能計算平臺不僅是AI技術(shù)發(fā)展的基石,更是推動AI應(yīng)用落地、加速產(chǎn)業(yè)升級的重要工具。以下,是對AI高性能計算平臺的介紹,由AI部落小編為您整理分享。
    的頭像 發(fā)表于 11-11 09:56 ?698次閱讀

    XD08M3232紅外感應(yīng)單片機擁有哪些配置實現(xiàn)高性能處理能力

    關(guān)于XD08M3232單片機采用哪些配置實現(xiàn)高性能處理能力并沒有直接搜索結(jié)果提及。如下: 一、內(nèi)核方面 增強型1T8051內(nèi)核**** :XD08M3232是一款8位高性能Flash的接近感應(yīng)單片機
    發(fā)表于 11-07 14:04

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)
    發(fā)表于 10-24 10:51 ?1次下載

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    1章 從TOP500和MLPerf看算力芯片格局 1.1科學算力最前沿TOP500 1.2 AI算力新標準 第2章 高性能 CPU 流水線概覽 2.1什么是指令 2.2 流水線與MIPS 2.3
    發(fā)表于 10-15 22:08

    請問如何用VCA810實現(xiàn)模擬乘法器?

    我在《德州儀器高性能單片機和模擬器件在高校中的應(yīng)用和選型指南》中看見,書中說VCA810可以做為模擬乘法器使用,但是應(yīng)用手冊里的公式卻不是V0=VC*Vin,而是一個帶指數(shù)向的公式,所以我很好
    發(fā)表于 09-23 07:11

    克服設(shè)計難題-實現(xiàn)高性能接口

    電子發(fā)燒友網(wǎng)站提供《克服設(shè)計難題-實現(xiàn)高性能接口.pdf》資料免費下載
    發(fā)表于 08-28 09:41 ?0次下載
    克服設(shè)計難題-<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>高性能</b>接口

    帶你了解什么是高性能計算(HPC)

    受益于HPC更高的速度處理大量數(shù)據(jù)的能力,全球正在進入HPC大周期,高性能計算的發(fā)展水平已經(jīng)成為衡量一個國家綜合實力和高科技發(fā)展水平的重要標志,美國、歐盟、日本、英國都高度重視高性能計算的發(fā)展,并在
    的頭像 發(fā)表于 07-20 08:28 ?1325次閱讀
    帶你了解什么是<b class='flag-5'>高性能</b>計算(HPC)