GPU一推出就包含了比CPU更多的處理單元,更大的帶寬,使得其在多媒體處理過程中能夠發(fā)揮更大的效能。例如:當(dāng)前最頂級(jí)的CPU只有4核或者6核,模擬出8個(gè)或者12個(gè)處理線程來進(jìn)行運(yùn)算,但是普通級(jí)別的GPU就包含了成百上千個(gè)處理單元,高端的甚至更多,這對(duì)于多媒體計(jì)算中大量的重復(fù)處理過程有著天生的優(yōu)勢(shì)。下圖展示了CPU和GPU架構(gòu)的對(duì)比。
從硬件設(shè)計(jì)上來講,CPU 由專為順序串行處理而優(yōu)化的幾個(gè)核心組成。另一方面,GPU 則由數(shù)以千計(jì)的更小、更高效的核心組成,這些核心專為同時(shí)處理多任務(wù)而設(shè)計(jì)。
通過上圖我們可以較為容易地理解串行運(yùn)算和并行運(yùn)算之間的區(qū)別。傳統(tǒng)的串行編寫軟件具備以下幾個(gè)特點(diǎn):要運(yùn)行在一個(gè)單一的具有單一中央處理器(CPU)的計(jì)算機(jī)上;一個(gè)問題分解成一系列離散的指令;指令必須一個(gè)接著一個(gè)執(zhí)行;只有一條指令可以在任何時(shí)刻執(zhí)行。而并行計(jì)算則改進(jìn)了很多重要細(xì)節(jié):要使用多個(gè)處理器運(yùn)行;一個(gè)問題可以分解成可同時(shí)解決的離散指令;每個(gè)部分進(jìn)一步細(xì)分為一系列指示;每個(gè)部分的問題可以同時(shí)在不同處理器上執(zhí)行。
舉個(gè)生活中的例子來說,你要點(diǎn)一份餐館的外賣,CPU型餐館用一輛大貨車送貨,每次可以拉很多外賣,但是送完一家才能到下一家送貨,每個(gè)人收到外賣的時(shí)間必然很長;而GPU型餐館用十輛小摩托車送貨,每輛車送出去的不多,但是并行處理的效率高,點(diǎn)餐之后收貨就會(huì)比大貨車快很多。
-
cpu
+關(guān)注
關(guān)注
68文章
11076瀏覽量
217012 -
gpu
+關(guān)注
關(guān)注
28文章
4943瀏覽量
131209
發(fā)布評(píng)論請(qǐng)先 登錄
高效地?cái)U(kuò)展Polars GPU Parquet讀取器

基于1.35M Instance設(shè)計(jì)的GPU加速實(shí)例

使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
GPU加速計(jì)算平臺(tái)的優(yōu)勢(shì)
云 GPU 加速計(jì)算:突破傳統(tǒng)算力瓶頸的利刃
操作指南:pytorch云服務(wù)器怎么設(shè)置?
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

GPU加速云服務(wù)器怎么用的
《CST Studio Suite 2024 GPU加速計(jì)算指南》
RAPIDS cuDF將pandas提速近150倍

PyTorch GPU 加速訓(xùn)練模型方法
GPU加速計(jì)算平臺(tái)是什么
深度學(xué)習(xí)GPU加速效果如何
英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級(jí)
德思特分享 突破FPGA限制:德思特TS-M4i系列數(shù)字化儀利用GPU加速實(shí)現(xiàn)高效塊平均處理

評(píng)論