檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
NPU調(diào)度 NPU芯級獨(dú)占調(diào)度 NPU拓?fù)涓兄{(diào)度 NPU虛擬化 NPU監(jiān)控 父主題: 調(diào)度
NPU芯級獨(dú)占調(diào)度 NPU芯級獨(dú)占調(diào)度是指在調(diào)度NPU資源時,以NPU芯卡為單位進(jìn)行資源分配的調(diào)度策略。每個Pod在運(yùn)行時會獨(dú)占一個或多個完整的NPU芯片,不會與其他任務(wù)共享NPU芯片的計算資源。
遇見你,遇見未來 華為云 | +智能,見未來 項(xiàng)目實(shí)習(xí)生 深度學(xué)習(xí)模型優(yōu)化 深度學(xué)習(xí)模型優(yōu)化 領(lǐng)域方向:人工智能 工作地點(diǎn): 深圳 深度學(xué)習(xí)模型優(yōu)化 人工智能 深圳 項(xiàng)目簡介 為AI類應(yīng)用深度學(xué)習(xí)模型研發(fā)優(yōu)化技術(shù),包括神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,NAS搜索算法,訓(xùn)練算法優(yōu)化,AI模型編譯優(yōu)化等
基于PyTorch NPU快速部署開源大模型 基于PyTorch NPU快速部署開源大模型 查看部署指南 方案咨詢 該解決方案有何用途?
NPU調(diào)度 NPU調(diào)度概述 NPU節(jié)點(diǎn)標(biāo)簽 創(chuàng)建NPU應(yīng)用 父主題: 管理本地集群
NPU指標(biāo)說明 當(dāng)CCE AI套件(ASCEND NPU)插件版本為2.1.55及以上時,支持使用npu-exporter組件。
NPU調(diào)度概述 UCS本地集群管理支持NPU異構(gòu)資源調(diào)度能力。 可實(shí)現(xiàn)快速高效地處理推理和圖像識別等工作。 NPU調(diào)度可以指定Pod申請NPU的數(shù)量,為工作負(fù)載提供NPU資源。 父主題: NPU調(diào)度
NPU設(shè)備檢查 功能 檢查節(jié)點(diǎn)是否存在npu設(shè)備。
NPU拓?fù)涓兄{(diào)度 節(jié)點(diǎn)內(nèi)NPU拓?fù)溆H和調(diào)度 超節(jié)點(diǎn)拓?fù)溆H和調(diào)度 父主題: NPU調(diào)度
NPU計算型 NPU計算單元包含的計算資源主要適用于政企客戶部署昇騰云服務(wù)到CloudPond上使用的場景,對應(yīng)華為云昇騰云的實(shí)例包含snt系列,用戶可根據(jù)機(jī)型規(guī)格情況選擇對應(yīng)的計算資源商品。具體規(guī)格請參考表1。
npu-exporter組件共支持采集73個NPU指標(biāo)(如健康狀態(tài)、功耗、溫度等),通過這些指標(biāo)您可以全面了解NPU狀況。關(guān)于NPU指標(biāo)的更多信息,請參見NPU指標(biāo)說明。 本文將進(jìn)一步為您介紹如何啟用npu-exporter組件以及如何對NPU指標(biāo)進(jìn)行實(shí)時監(jiān)控。
NPU監(jiān)控 NPU指標(biāo)說明 實(shí)現(xiàn)NPU指標(biāo)的全面監(jiān)控 父主題: NPU調(diào)度
指標(biāo) 監(jiān)控級別 備注 cce_npu_memory_total NPU卡 NPU卡顯存總量 cce_npu_memory_used NPU卡 NPU卡顯存使用量 cce_npu_utilization NPU卡 NPU卡算力使用率 如何確認(rèn)節(jié)點(diǎn)NPU驅(qū)動已安裝完成 NPU驅(qū)動安裝成功后需要重啟節(jié)點(diǎn)才能生效
SSH登錄機(jī)器后,檢查NPU卡狀態(tài)。運(yùn)行如下命令,返回NPU設(shè)備信息。 npu-smi info # 在每個實(shí)例節(jié)點(diǎn)上運(yùn)行此命令可以看到NPU卡狀態(tài) 如出現(xiàn)錯誤,可能是機(jī)器上的NPU設(shè)備沒有正常安裝,或者NPU鏡像被其他容器掛載。
創(chuàng)建NPU應(yīng)用 前提條件 如果您需要通過命令行創(chuàng)建,需要使用kubectl連接到集群,詳情請參見通過kubectl連接集群。 約束與限制 當(dāng)前不支持npu負(fù)載多容器能力。
自動實(shí)現(xiàn)NPU虛擬化(算力切分) 在CCE中,通過CCE AI套件(Ascend NPU)插件的ascend-vnpu-manager組件可以實(shí)現(xiàn)節(jié)點(diǎn)池粒度的NPU虛擬化,以生成虛擬NPU(vNPU),從而實(shí)現(xiàn)資源的高效利用。
NPU虛擬化 NPU虛擬化概述 自動實(shí)現(xiàn)NPU虛擬化(算力切分) 手動實(shí)現(xiàn)NPU虛擬化 父主題: NPU調(diào)度
NPU虛擬化概述 NPU虛擬化是指將通過資源虛擬化的方式將物理機(jī)中配置的NPU(昇騰AI產(chǎn)品)切分為多個虛擬NPU(vNPU),并掛載至容器中使用,以實(shí)現(xiàn)對硬件資源的靈活切分與動態(tài)管理。
手動實(shí)現(xiàn)NPU虛擬化 在CCE中,支持手動進(jìn)行NPU虛擬化,從而實(shí)現(xiàn)節(jié)點(diǎn)級別的NPU切分,允許手動控制每張NPU卡的資源分配,提供更高的靈活性。然而,該方式的配置過程相對復(fù)雜,更適合對NPU資源使用有精細(xì)化需求的場景(如特定算力分配、資源隔離要求嚴(yán)格的業(yè)務(wù))。
) 該案例是使用華為云一站式AI開發(fā)平臺ModelArts的新版“自動學(xué)習(xí)”功能,基于華為云AI開發(fā)者社區(qū)AI Gallery中的數(shù)據(jù)集資產(chǎn),讓零AI基礎(chǔ)的開發(fā)者完成“物體檢測”的AI模型的訓(xùn)練和部署。
示例:創(chuàng)建DDP分布式訓(xùn)練(PyTorch+NPU) 在深度學(xué)習(xí)領(lǐng)域,使用PyTorch的DistributedDataParallel(DDP)功能在Ascend加速卡上進(jìn)行分布式訓(xùn)練是一種高效的方式。
管理全周期AI工作流,助力千行百業(yè)智能升級 購買 控制臺 文檔 資源與工具 資源與工具 開發(fā)服務(wù) 海量資源助力開發(fā)者與華為云共建應(yīng)用 開發(fā)工具 獲取海量開發(fā)者技術(shù)資源、工具 開發(fā)者計劃 使能開發(fā)者基于開放能力進(jìn)行技術(shù)創(chuàng)新 開發(fā)支持 專業(yè)高效的開發(fā)者在線技術(shù)支持服務(wù) 開發(fā)者學(xué)堂 云上學(xué)習(xí)