檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
適用于GPU加速實例的鏡像列表 查看更多 驅(qū)動和工具包 驅(qū)動和工具包 GPU加速型實例自動安裝GPU驅(qū)動(Linux) GPU加速型實例安裝GRID/vGPU驅(qū)動 GPU加速型實例卸載GPU驅(qū)動 查看更多 驅(qū)動故障 驅(qū)動故障 GPU實例故障處理流程 GPU驅(qū)動故障 異構(gòu)類實例安裝支持對應(yīng)監(jiān)控的CES Agent(Linux)
卸載GPU加速型ECS的GPU驅(qū)動 操作場景 當GPU加速型云服務(wù)器需手動卸載GPU驅(qū)動時,可參考本文檔進行操作。 GPU驅(qū)動卸載命令與GPU驅(qū)動的安裝方式和操作系統(tǒng)類型相關(guān),例如: Windows操作系統(tǒng)卸載驅(qū)動 Linux操作系統(tǒng)卸載驅(qū)動 Windows操作系統(tǒng)卸載驅(qū)動 以Windows
GPU采用xGPU虛擬化技術(shù),能夠動態(tài)對GPU設(shè)備顯存與算力進行劃分,單個GPU卡最多虛擬化成20個GPU虛擬設(shè)備。相對于靜態(tài)分配來說,虛擬化的方案更加靈活,最大程度保證業(yè)務(wù)穩(wěn)定的前提下,可以完全由用戶定義使用的GPU數(shù)量,提高GPU利用率。 GPU虛擬化功能優(yōu)勢如下: 靈活:精細配置GPU算力占比及顯存大
同的卡型,獨立配置GPU/MEM。最小GPU規(guī)格小至1 GB顯存/算力,將為您提供最貼合業(yè)務(wù)的實例規(guī)格。 突發(fā)流量支撐 函數(shù)計算平臺提供充足的GPU資源供給,當業(yè)務(wù)遭遇突發(fā)流量時,函數(shù)計算將以秒級彈性供給海量GPU算力資源,避免因GPU算力供給不足、GPU算力彈性滯后導(dǎo)致的業(yè)務(wù)受損。
T4 GPU設(shè)備顯示異常 問題描述 使用NVIDIA Tesla T4 GPU的云服務(wù)器,例如Pi2或G6規(guī)格,執(zhí)行nvidia-smi命令查看GPU使用情況時,顯示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本,默認使用并開啟GSP
數(shù)據(jù)、算法和算力是人工智能發(fā)展的三大支柱,這三個要素缺一不可。就算力而言,除了訓(xùn)練,AI實際需要運行在硬件上,以及推理(inference),這些都需要算力的支撐,而這需要GPU來承載和實現(xiàn)。雖然GPU一開始是專門為圖形應(yīng)用開發(fā)的硬件組件,在圖形渲染中需要進行大量的浮點運算,這些
GPU監(jiān)控 GPU監(jiān)控指標說明 實現(xiàn)GPU基礎(chǔ)、虛擬化及Pod級資源指標的全面監(jiān)控 實現(xiàn)DCGM指標的全面監(jiān)控 父主題: GPU調(diào)度
toposort()]): print('Used the cpu') else: print('Used the gpu')
28及以上集群:支持節(jié)點池級別的GPU虛擬化開關(guān)。 圖2 v1.28及以上集群異構(gòu)資源配置 單擊“確認配置”進行保存。 步驟三:創(chuàng)建GPU虛擬化負載并擴容 參考使用GPU虛擬化章節(jié),創(chuàng)建使用GPU虛擬化資源的無狀態(tài)負載,并將GPU申請量設(shè)為大于集群現(xiàn)有GPU資源上限。例如:集群中有16
CPU 和 GPU 性能提升不平衡 先縱向擴展,再橫向擴展 GPU 型號,NVLink,NVSwitch,DGX,10G/25G/100G/200G 的匹配和選擇 混合精度 GPU Direct RDMA(Infiniband) 從 CPU 中卸載一些操作到 GPU(e.g
GPU計算型 GPU計算單元包含的計算資源主要適用于政企用戶部署GPU密集型業(yè)務(wù)到CloudPond上使用的場景,對應(yīng)華為云ECS的實例包含Pi系列,用戶可根據(jù)機型規(guī)格情況選擇對應(yīng)的計算資源商品。具體規(guī)格請參考表1。 表1 GPU計算單元 名稱 算力配置 描述 GPU計算單元-匯聚型-2Pi2
基于GPU監(jiān)控指標配置工作負載彈性伸縮 在Standard/Turbo集群中,用戶可以通過GPU監(jiān)控指標為使用GPU資源的工作負載配置彈性伸縮(HPA),使應(yīng)用在業(yè)務(wù)高峰期自動擴容、低負載時縮容,從而優(yōu)化資源利用率并降低成本。 前提條件 目標集群已創(chuàng)建,且集群中包含GPU節(jié)點,并已運行GPU相關(guān)業(yè)務(wù)。
com/gpu 指定申請GPU的數(shù)量,支持申請設(shè)置為小于1的數(shù)量,比如 nvidia.com/gpu: 0.5,這樣可以多個Pod共享使用GPU。GPU數(shù)量小于1時,不支持跨GPU分配,如0.5 GPU只會分配到一張卡上。 指定nvidia.com/gpu后,在調(diào)度時不會將負載調(diào)
顯存總量 GPU卡-顯存使用量 字節(jié) 顯卡上容器顯存使用總量 GPU卡-算力使用率 百分比 每張GPU卡的算力使用率 計算公式:顯卡上容器算力使用總量/顯卡的算力總量 GPU卡-溫度 攝氏度 每張GPU卡的溫度 GPU卡-顯存頻率 赫茲 每張GPU卡的顯存頻率 GPU卡-PCIe帶寬
過shared memory通信Grid:多個blocks則會再構(gòu)成GridWarp:GPU執(zhí)行程序時的調(diào)度單位,同一個warp里的線程執(zhí)行相同的指令,即SIMT。下面這張圖能夠很好說明GPU的內(nèi)存模型
選擇GPU節(jié)點驅(qū)動版本 使用GPU加速型云服務(wù)器時,需要安裝正確的Nvidia基礎(chǔ)設(shè)施軟件,才可以使用GPU實現(xiàn)計算加速功能。在使用GPU前,您需要根據(jù)GPU型號,選擇兼容配套軟件包并安裝。 本文將介紹如何選擇GPU節(jié)點的驅(qū)動版本及配套的CUDA Toolkit。 如何選擇GPU節(jié)點驅(qū)動版本
IDIA驅(qū)動版本。 GPU驅(qū)動支持列表 當前GPU驅(qū)動支持列表僅針對1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。 如果您需要安裝最新版本的GPU驅(qū)動,請將您的CCE AI套件(NVIDIA GPU)插件升級到最新版本。 表3 GPU驅(qū)動支持列表中列出的操
GPU彈性伸縮 基于GPU監(jiān)控指標配置工作負載彈性伸縮 GPU虛擬化節(jié)點彈性伸縮配置 父主題: GPU調(diào)度
本節(jié)操作介紹GPU云服務(wù)器安裝Tesla驅(qū)動及CUDA工具包的操作步驟。 當前已支持使用自動化腳本安裝GPU驅(qū)動,建議優(yōu)先使用自動安裝方式,腳本獲取以及安裝指導(dǎo)請參考(推薦)自動安裝GPU加速型ECS的GPU驅(qū)動(Linux)和(推薦)自動安裝GPU加速型ECS的GPU驅(qū)動(Windows)。
GPU調(diào)度 GPU節(jié)點驅(qū)動版本 使用Kubernetes默認GPU調(diào)度 GPU虛擬化 GPU監(jiān)控 GPU彈性伸縮 GPU故障處理 故障GPU的Pod自動驅(qū)逐功能 父主題: 調(diào)度