檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
- 64字符,字母、數(shù)字和中劃線。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請(qǐng)參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 請(qǐng)求參數(shù) 表2 請(qǐng)求Body參數(shù) 參數(shù) 是否必選
訓(xùn)練作業(yè)性能降低 問題現(xiàn)象 使用ModelArts平臺(tái)訓(xùn)練算法訓(xùn)練耗時(shí)增加。 原因分析 可能存在如下原因: 平臺(tái)上的代碼經(jīng)過修改優(yōu)化、訓(xùn)練參數(shù)有過變更。 訓(xùn)練的GPU硬件工作出現(xiàn)異常。 處理方法 請(qǐng)您對(duì)作業(yè)代碼進(jìn)行排查分析,確認(rèn)是否對(duì)訓(xùn)練代碼和參數(shù)進(jìn)行過修改。 檢查資源分配情況(
訓(xùn)練作業(yè)性能問題 訓(xùn)練作業(yè)性能降低 父主題: 訓(xùn)練作業(yè)
刪除訓(xùn)練作業(yè)版本 功能介紹 刪除訓(xùn)練作業(yè)一個(gè)版本。 此接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 參數(shù)說明如表1所示。
Object 會(huì)話對(duì)象,初始化方法請(qǐng)參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對(duì)象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 update_job_configs請(qǐng)求參數(shù)說明 參數(shù)
常用框架指使用ModelArts訓(xùn)練管理中支持的常用AI引擎,當(dāng)前支持的引擎列表請(qǐng)參見ModelArts支持的預(yù)置鏡像列表。 如果您使用的AI引擎為支持列表之外的,建議使用自定義鏡像的方式創(chuàng)建訓(xùn)練作業(yè)。 AI Engine 選擇代碼使用的AI引擎及其版本。支持的AI引擎與ModelArts
使用VS Code創(chuàng)建并調(diào)試訓(xùn)練作業(yè) 由于AI開發(fā)者會(huì)使用VS Code工具開發(fā)算法或模型,為方便快速將本地代碼提交到ModelArts的訓(xùn)練環(huán)境、貼近本地開發(fā)習(xí)慣地編寫啟動(dòng)命令,ModelArts提供了一個(gè)訓(xùn)練作業(yè)場(chǎng)景下的IDE插件ModelArts-HuaweiCloud,用
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id 是 String 用戶項(xiàng)目ID。獲取方法請(qǐng)參見獲取項(xiàng)目ID和名稱。
job_name:可選參數(shù),訓(xùn)練任務(wù)名,便于區(qū)分和記憶。 本地單機(jī)調(diào)試訓(xùn)練任務(wù)開始后,SDK會(huì)依次幫助用戶完成以下流程: 初始化訓(xùn)練作業(yè),如果2指定的訓(xùn)練數(shù)據(jù)在OBS上,這里會(huì)將數(shù)據(jù)下載到local_path中。 執(zhí)行訓(xùn)練任務(wù),用戶的訓(xùn)練代碼需要將訓(xùn)練輸出保存在4中指定的local_path中。
訓(xùn)練作業(yè)失敗,如何使用開發(fā)環(huán)境調(diào)試訓(xùn)練代碼? 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過程中的錯(cuò)誤。 直接使用線上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開發(fā)模型。 配置本地IDE(Pycharm或者VsCode)聯(lián)接云上環(huán)境調(diào)試請(qǐng)參考使用本地IDE開發(fā)模型。
訓(xùn)練作業(yè)卡死檢測(cè)定位 什么是訓(xùn)練作業(yè)卡死檢測(cè) 訓(xùn)練作業(yè)在運(yùn)行中可能會(huì)因?yàn)槟承┪粗驅(qū)е伦鳂I(yè)卡死,如果不能及時(shí)發(fā)現(xiàn),就會(huì)導(dǎo)致無法及時(shí)釋放資源,從而造成極大的資源浪費(fèi)。為了節(jié)省訓(xùn)練資源成本,提高使用體驗(yàn),ModelArts提供了卡死檢測(cè)功能,能自動(dòng)識(shí)別作業(yè)是否卡死,并在日志詳情界面
濾,快速查找訓(xùn)練作業(yè)。 在“訓(xùn)練作業(yè)”列表中,單擊作業(yè)名稱,進(jìn)入訓(xùn)練作業(yè)詳情頁(yè)。 在訓(xùn)練作業(yè)詳情頁(yè)的左側(cè),可以查看此次訓(xùn)練作業(yè)的基本信息和算法配置的相關(guān)信息。 訓(xùn)練作業(yè)基本信息 表1 訓(xùn)練作業(yè)基本信息 參數(shù) 說明 “作業(yè)ID” 訓(xùn)練作業(yè)唯一標(biāo)識(shí)。 “作業(yè)狀態(tài)” 訓(xùn)練作業(yè)狀態(tài)。 說明:
創(chuàng)建訓(xùn)練作業(yè)版本 功能介紹 創(chuàng)建一個(gè)訓(xùn)練作業(yè)版本。 該接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions 參數(shù)說明如表1所示。 表1 參數(shù)說明
使用預(yù)置算法訓(xùn)練時(shí),訓(xùn)練失敗,報(bào)“bndbox”錯(cuò)誤 問題現(xiàn)象 使用預(yù)置算法創(chuàng)建訓(xùn)練作業(yè),訓(xùn)練失敗,日志中出現(xiàn)如下報(bào)錯(cuò)。 KeyError: 'bndbox' 原因分析 用于訓(xùn)練的數(shù)據(jù)集中,使用了“非矩形框”標(biāo)注。而預(yù)置使用算法不支持“非矩形框”標(biāo)注的數(shù)據(jù)集。 處理方法 此問題有兩種解決方法:
訓(xùn)練作業(yè) OBS操作相關(guān)故障 云上遷移適配故障 硬盤限制故障 外網(wǎng)訪問限制 權(quán)限問題 GP相關(guān)問題 業(yè)務(wù)代碼問題 預(yù)置算法運(yùn)行故障 訓(xùn)練作業(yè)卡死 訓(xùn)練作業(yè)運(yùn)行失敗 專屬資源池創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)性能問題 Ascend相關(guān)問題
transfer_to_npu 將預(yù)訓(xùn)練模型指定為實(shí)際下載路徑。 開始訓(xùn)練。 單卡訓(xùn)練啟動(dòng)方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model DiT-XL/2 --data-path imagenet/train --global-batch-size
查詢訓(xùn)練作業(yè)列表 功能介紹 查詢訓(xùn)練作業(yè)列表接口用于獲取ModelArts平臺(tái)上所有訓(xùn)練作業(yè)的列表。 該接口適用于以下場(chǎng)景:當(dāng)用戶需要查看平臺(tái)上的所有訓(xùn)練作業(yè)時(shí),可以通過此接口獲取作業(yè)列表。使用該接口的前提條件是用戶具有查看訓(xùn)練作業(yè)列表的權(quán)限。查詢操作完成后,平臺(tái)將返回包含訓(xùn)練作業(yè)
在ModelArts中訓(xùn)練好的模型如何獲?。?使用自定義算法或者訂閱算法訓(xùn)練生成的模型,會(huì)存儲(chǔ)至用戶指定的OBS路徑中,供用戶下載。 父主題: Standard模型訓(xùn)練
訓(xùn)練作業(yè)卡死 訓(xùn)練作業(yè)卡死檢測(cè)定位 復(fù)制數(shù)據(jù)卡死 訓(xùn)練前卡死 訓(xùn)練中途卡死 訓(xùn)練最后一個(gè)epoch卡死 父主題: 訓(xùn)練作業(yè)
訓(xùn)練作業(yè)訓(xùn)練失敗報(bào)錯(cuò):TypeError: unhashable type: ‘list’ 問題現(xiàn)象 使用訂閱算法圖像分類-EfficientNetB4進(jìn)行訓(xùn)練報(bào)錯(cuò):TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多標(biāo)簽分類導(dǎo)致(即一個(gè)圖片用了1個(gè)以上的標(biāo)簽)。