檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
node_count Integer 訓練作業(yè)選擇的資源副本數(shù)。 最小值:1 pool_id String 訓練作業(yè)選擇的資源池ID。 flavor_detail flavor_detail object 訓練作業(yè)、算法的規(guī)格信息。 表45 flavor_detail 參數(shù) 參數(shù)類型 描述 flavor_type
訓練前卡死 作業(yè)為多節(jié)點訓練,且還未開始訓練時發(fā)生卡死,可以在代碼中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 問題現(xiàn)象1 日志中還未出現(xiàn)NCCL DEBUG信息時已卡死。 解決方案1 檢查代碼,檢查是否有參數(shù)中未傳入“
A/training/,訓練代碼會被自動下載至${MA_JOB_DIR}/training/。 假設訓練代碼的OBS目錄為obs://bucket-A/XXX/{training-project}/,“{training-project}”是存放訓練代碼的文件夾名稱。訓練時會自動
保障用戶訓練作業(yè)的長穩(wěn)運行 提供訓練作業(yè)斷點續(xù)訓與增量訓練能力,即使訓練因某些原因中斷,也可以基于checkpoint接續(xù)訓練,保障需要長時間訓練的模型的穩(wěn)定性和可靠性,避免重新開始訓練耗費的時間與計算成本 支持訓練數(shù)據(jù)使用SFS Turbo文件系統(tǒng)進行數(shù)據(jù)掛載,訓練作業(yè)產(chǎn)生的
Integer 訓練作業(yè)worker的個數(shù)。 data_url String 訓練作業(yè)的數(shù)據(jù)集。 train_url String 訓練作業(yè)輸出文件OBS路徑。 log_url String 訓練作業(yè)的日志OBS輸出路徑URL,默認為空。如:“/usr/train/”。 dataset_version_id
停止訓練作業(yè)版本 功能介紹 停止訓練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓練作業(yè)列表和查詢訓練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數(shù)說明如表1所示。
創(chuàng)建訓練作業(yè) 示例代碼 在ModelArts notebook平臺,Session鑒權無需輸入鑒權參數(shù)。其它平臺的Session鑒權請參見Session鑒權。 ModelArts SDK不支持通過在AI Gallery中訂閱的算法創(chuàng)建訓練作業(yè)。 示例一:提交常用框架訓練作業(yè) Es
查詢訓練作業(yè)指定任務的運行指標 功能介紹 查詢訓練作業(yè)指定任務的運行指標接口用于獲取ModelArts平臺上指定訓練作業(yè)任務的運行指標。 該接口適用于以下場景:當用戶需要查看特定訓練任務的性能指標時,可以通過此接口獲取運行指標。使用該接口的前提條件是用戶已知訓練作業(yè)ID和任務ID
查詢訓練作業(yè)日志 功能介紹 按行來查詢訓練作業(yè)日志詳細信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 參數(shù)說明如表1所示。 表1 路徑參數(shù) 參數(shù) 是否必選 參數(shù)類型
查詢訓練作業(yè)鏡像保存任務 功能介紹 查詢訓練作業(yè)鏡像保存任務接口用于獲取ModelArts平臺上指定訓練作業(yè)的鏡像保存任務信息。 該接口適用于以下場景:當用戶需要查看特定訓練作業(yè)的鏡像保存任務狀態(tài)時,可以通過此接口獲取任務信息。使用該接口的前提條件是用戶已知訓練作業(yè)ID,并具有查
訓練最后一個epoch卡死 問題現(xiàn)象 通過日志查看數(shù)據(jù)切分是否對齊,如果未對齊,容易導致部分進程完成訓練退出,而部分訓練進程因未收到其他進程反饋卡死,如下圖同一時間有的進程在epoch48,而有的進程在epoch49。 loss exit lane:0.12314446270465851
獲取訓練配額 功能介紹 獲取用戶的訓練配額。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/training-quotas
更新訓練作業(yè)描述 功能介紹 更新訓練作業(yè)描述。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI PUT /v2/{project_id}/training-jobs/{training_job_id}
- 64字符,字母、數(shù)字和中劃線。 取值范圍:不涉及。 默認取值:不涉及。 training_job_id 是 String 參數(shù)解釋:訓練作業(yè)ID。 約束限制:獲取方法請參見查詢訓練作業(yè)列表。 取值范圍:不涉及。 默認取值:不涉及。 請求參數(shù) 表2 請求Body參數(shù) 參數(shù) 是否必選
Object 會話對象,初始化方法請參考Session鑒權。 job_id 是 String 訓練作業(yè)的id,可通過創(chuàng)建訓練作業(yè)生成的訓練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓練作業(yè)列表的響應中獲得。 表2 update_job_configs請求參數(shù)說明 參數(shù)
用戶還可以創(chuàng)建訓練作業(yè)的數(shù)量。 jobs jobs結構數(shù)組 訓練作業(yè)的屬性列表,具體請參見表4。 quotas Integer 訓練作業(yè)的運行數(shù)量上限。 表4 jobs屬性列表 參數(shù) 參數(shù)類型 說明 job_id Long 訓練作業(yè)的ID。 job_name String 訓練作業(yè)的名稱。
node_count Integer 訓練作業(yè)選擇的資源副本數(shù)。 最小值:1 pool_id String 訓練作業(yè)選擇的資源池ID。 flavor_detail flavor_detail object 訓練作業(yè)、算法的規(guī)格信息。 表43 flavor_detail 參數(shù) 參數(shù)類型 描述 flavor_type
全鏈條閉環(huán)平臺,打造一站式解決方案,打通數(shù)據(jù)、算法、訓練、評估、部署全過程,推動AI能力高效迭代,助力業(yè)務價值創(chuàng)新。商品規(guī)格: 1、訓練和推理服務授權包含:數(shù)據(jù)集管理(樣本采集、樣本標注)、模型管理(模型的訓練、模型的精度驗證)、算法管理(算法的應用服務)報表管理(數(shù)據(jù)集統(tǒng)計、模
訓練作業(yè)性能問題 訓練作業(yè)性能降低 父主題: 訓練作業(yè)
常用框架指使用ModelArts訓練管理中支持的常用AI引擎,當前支持的引擎列表請參見ModelArts支持的預置鏡像列表。 如果您使用的AI引擎為支持列表之外的,建議使用自定義鏡像的方式創(chuàng)建訓練作業(yè)。 AI Engine 選擇代碼使用的AI引擎及其版本。支持的AI引擎與ModelArts