檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
附錄 Ascend-vLLM推理常見(jiàn)問(wèn)題 父主題: 主流開(kāi)源大模型基于Lite Server適配Ascend-vLLM框架NPU推理指導(dǎo)
SSH登錄機(jī)器后,檢查NPU設(shè)備狀態(tài)。運(yùn)行如下命令,返回NPU設(shè)備信息。 npu-smi info 如出現(xiàn)錯(cuò)誤,可能是機(jī)器上的NPU設(shè)備沒(méi)有正常安裝,或者NPU鏡像被其他容器掛載。請(qǐng)先正常安裝固件和驅(qū)動(dòng),或釋放被掛載的NPU。 檢查docker是否安裝。
舉例 筆者使用兩臺(tái)Ascend Snt9B服務(wù)器進(jìn)行兩機(jī)分布式訓(xùn)練,訓(xùn)練中途NPU信息如下: 使用hccl_tool查詢(xún)0號(hào)RoCE網(wǎng)口實(shí)時(shí)帶寬,結(jié)果如下:
Volcano調(diào)度器(Volcano Scheduler) 插件簡(jiǎn)介 Volcano 是一個(gè)基于 Kubernetes 的批處理平臺(tái),提供了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、生物信息學(xué)、基因組學(xué)及其他大數(shù)據(jù)應(yīng)用所需要而 Kubernetes 當(dāng)下缺失的一系列特性。
SSH登錄機(jī)器后,檢查NPU設(shè)備檢查。運(yùn)行如下命令,返回NPU設(shè)備信息。
SSH登錄機(jī)器后,檢查NPU設(shè)備狀態(tài)。運(yùn)行如下命令,返回NPU設(shè)備信息。
問(wèn)題現(xiàn)象】1、利用PyCharm ToolKit工具提交訓(xùn)練,使用Ascend-Powered-Engine,TF-1.15-python3.7-aarch64,Ascend:1*Ascend910 CPU:24vCPUs 96GiB資源,連接不上2、在將文件傳輸至OBS之后,無(wú)法連接NPU
準(zhǔn)備代碼 本教程中用到的模型軟件包如下表所示,請(qǐng)?zhí)崆皽?zhǔn)備好。 獲取模型軟件包 本方案支持的模型對(duì)應(yīng)的軟件和依賴(lài)包獲取地址如表1所示。 表1 模型對(duì)應(yīng)的軟件包和依賴(lài)包獲取地址 代碼包名稱(chēng) 代碼說(shuō)明 下載地址 AscendCloud-6.3.912-xxx.zip 說(shuō)明: 軟件包名稱(chēng)中的
DeepSpeed是一個(gè)開(kāi)源庫(kù),用于加速深度學(xué)習(xí)訓(xùn)練。通過(guò)使用DeepSpeed,可以實(shí)現(xiàn)如混合精度訓(xùn)練、ZeRO內(nèi)存優(yōu)化等高級(jí)特性,以提高訓(xùn)練效率和性能 stage sft 表示當(dāng)前的訓(xùn)練階段。
父主題: 主流開(kāi)源大模型基于Lite Server適配Ascend-vLLM框架NPU推理指導(dǎo)
表1 依賴(lài)參數(shù)說(shuō)明 配置項(xiàng) 取值類(lèi)型 取值范圍 配置說(shuō)明 enable-chunked-prefill bool true false 1. chunked_prefill 特性在開(kāi)源 vllm v1 scheduler 在 GPU/NPU 上默認(rèn)開(kāi)啟生效。 2.
??前言 深度學(xué)習(xí)誕生時(shí)的環(huán)境,是辛頓的堅(jiān)持獲得成功的基礎(chǔ)。
Ascend-vLLM推理常見(jiàn)問(wèn)題 問(wèn)題1:在推理預(yù)測(cè)過(guò)程中遇到NPU out of memory 解決方法:調(diào)整推理服務(wù)啟動(dòng)時(shí)的顯存利用率,將--gpu-memory-utilization的值調(diào)小。
如果邊緣應(yīng)用需要使用NPU、GPU資源,請(qǐng)確認(rèn)注冊(cè)和納管的邊緣節(jié)點(diǎn)是否選擇了對(duì)應(yīng)的類(lèi)型。 在邊緣節(jié)點(diǎn)通過(guò)docker ps命令查看NPU、GPU容器(npu-device-plugin、gpu-device-plugin)是否正常運(yùn)行。
SSH登錄機(jī)器后,檢查NPU設(shè)備狀態(tài)。運(yùn)行如下命令,返回NPU設(shè)備信息。
準(zhǔn)備工作 準(zhǔn)備資源 準(zhǔn)備數(shù)據(jù) 準(zhǔn)備權(quán)重 準(zhǔn)備代碼 準(zhǔn)備鏡像 父主題: Qwen-VL模型基于Standard+OBS適配PyTorch NPU訓(xùn)練指導(dǎo)(6.3.912)
精度數(shù)據(jù)采集 工具使用 使用場(chǎng)景 精度數(shù)據(jù)采集FAQ 父主題: 主流開(kāi)源大模型適配NPU的AscendFactory訓(xùn)練框架開(kāi)發(fā)指導(dǎo)
準(zhǔn)備工作 準(zhǔn)備資源 準(zhǔn)備數(shù)據(jù) 準(zhǔn)備權(quán)重 準(zhǔn)備代碼 將數(shù)據(jù)預(yù)熱到SFS Turbo 準(zhǔn)備鏡像 父主題: Qwen-VL基于Standard+OBS+SFS適配PyTorch NPU訓(xùn)練指導(dǎo)(6.3.912)
訓(xùn)練準(zhǔn)備工作 準(zhǔn)備Lite Server環(huán)境 準(zhǔn)備軟件包、權(quán)重、訓(xùn)練數(shù)據(jù)集 準(zhǔn)備鏡像 父主題: 主流開(kāi)源大模型基于Lite Server適配AscendFactory NPU訓(xùn)練指導(dǎo)
宿主機(jī)上執(zhí)行命令獲取NPU信息 正常,如下圖容器內(nèi)部獲取NPU信息,如下圖升級(jí)固件到21.0.1,再次嘗試獲取NPU信息宿主機(jī)依然正常容器內(nèi)部獲取npu信息,依然報(bào)錯(cuò)不提升容器特權(quán),該問(wèn)題會(huì)導(dǎo)致推理業(yè)務(wù)異常中斷提升容器特權(quán),推理業(yè)務(wù)運(yùn)行正常