檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
裝的Ascend RUN包,或者設(shè)置一些訓(xùn)練運行時額外需要的全局環(huán)境變量。 如何查看訓(xùn)練作業(yè)日志 在訓(xùn)練作業(yè)詳情頁,訓(xùn)練日志窗口提供日志預(yù)覽、日志下載、日志中搜索關(guān)鍵字、系統(tǒng)日志過濾能力。 預(yù)覽 系統(tǒng)日志窗口提供訓(xùn)練日志預(yù)覽功能,如果訓(xùn)練作業(yè)有多個節(jié)點,則支持查看不同計算節(jié)點的日
訓(xùn)練作業(yè)創(chuàng)建失敗報錯: 準備階段超時。可能原因是跨區(qū)域算法同步或者創(chuàng)建共享存儲超時 訓(xùn)練作業(yè)已排隊,正在等待資源分配 訓(xùn)練作業(yè)排隊失敗 訓(xùn)練作業(yè)開始運行 訓(xùn)練作業(yè)運行成功 訓(xùn)練作業(yè)運行失敗 訓(xùn)練作業(yè)被搶占 系統(tǒng)檢測到您的作業(yè)疑似卡死,請及時前往作業(yè)詳情界面查看并處理 訓(xùn)練作業(yè)已重啟
訓(xùn)練輪數(shù)是指需要完成全量訓(xùn)練數(shù)據(jù)集訓(xùn)練的次數(shù)。訓(xùn)練輪數(shù)越大,模型學(xué)習(xí)數(shù)據(jù)的迭代步數(shù)就越多,可以學(xué)得更深入,但過高會導(dǎo)致過擬合;訓(xùn)練輪數(shù)越小,模型學(xué)習(xí)數(shù)據(jù)的迭代步數(shù)就越少,過低則會導(dǎo)致欠擬合。 您可根據(jù)任務(wù)難度和數(shù)據(jù)規(guī)模進行調(diào)整。一般來說,如果目標任務(wù)的難度較大或數(shù)據(jù)量級很小,可以使用較大的訓(xùn)練輪數(shù),反之可以使用較小的訓(xùn)練輪數(shù)。
15網(wǎng)絡(luò)遷移工具,該工具適用于原生的Tensorflow訓(xùn)練腳本遷移場景,AI算法工程師通過該工具分析原生的TensorFlow Python API和Horovod Python API在昇騰AI處理器上的支持度情況,同時將原生的TensorFlow訓(xùn)練腳本自動遷移成昇騰AI處理器支持的腳本。對于無法自動
當您使用自定義腳本創(chuàng)建算法的時候,如果您的模型引用了其他依賴,您需要在“算法管理 > 創(chuàng)建算法”的“代碼目錄”下放置相應(yīng)的文件或安裝包。 安裝python依賴包請參考模型中引用依賴包時,如何創(chuàng)建訓(xùn)練作業(yè)? 安裝C++的依賴庫請參考如何安裝C++的依賴庫? 在預(yù)訓(xùn)練模型中加載參數(shù)請參考如何在訓(xùn)練中加載部分訓(xùn)練好的參數(shù)?
7-aarch64-snt3p 構(gòu)建自定義訓(xùn)練鏡像 圖1 訓(xùn)練作業(yè)的自定義鏡像制作流程 場景一:預(yù)置鏡像滿足ModelArts訓(xùn)練平臺約束,但不滿足代碼依賴的要求,需要額外安裝軟件包。 具體案例參考使用預(yù)置鏡像制作自定義鏡像用于訓(xùn)練模型。 場景二:已有本地鏡像滿足代碼依賴的要求,
構(gòu)建增量預(yù)訓(xùn)練數(shù)據(jù)集 獲取源數(shù)據(jù) 金融領(lǐng)域增量預(yù)訓(xùn)練所需要的數(shù)據(jù)主要包含通用預(yù)訓(xùn)練數(shù)據(jù)和金融行業(yè)預(yù)訓(xùn)練數(shù)據(jù)。本案例推薦的開源數(shù)據(jù)集如下: 通用中文預(yù)訓(xùn)練數(shù)據(jù)(CCI 3.0-HQ): 基于CCI 3.0語料庫,BAAI進一步進行加工,通過兩階段混合過濾管道開發(fā),顯著提升了數(shù)據(jù)質(zhì)量
分布式訓(xùn)練功能介紹 分布式訓(xùn)練 分布式訓(xùn)練是指在多個計算節(jié)點(如多臺服務(wù)器或GPU設(shè)備)上并行執(zhí)行深度學(xué)習(xí)任務(wù),以加快模型訓(xùn)練速度或處理更大規(guī)模的數(shù)據(jù)。通過將訓(xùn)練任務(wù)分配到多個節(jié)點上,每個節(jié)點負責計算模型的一部分,然后通過通信機制將計算結(jié)果同步,最終完成整個模型的訓(xùn)練。這種方式可
查看訓(xùn)練作業(yè)監(jiān)控指標 在訓(xùn)練作業(yè)運行過程中,如果用戶能在模型訓(xùn)練出問題(例如loss值異常)的情況下能收到告警并及時處理,可以節(jié)省大量時間和資源,避免無效運行作業(yè)導(dǎo)致的浪費。同時通過指標監(jiān)控可以實時掌握訓(xùn)練作業(yè)的進度,了解模型在不同階段的訓(xùn)練狀態(tài)。 當前ModelArts Sta
斂問題。 訓(xùn)練詳情頁的checkpoint輸出發(fā)布成資產(chǎn)之后,與正常訓(xùn)練結(jié)束的模型產(chǎn)物一致,可以支持增量微調(diào),LoRA微調(diào),部署等功能。 查看訓(xùn)練任務(wù)詳情 模型啟動訓(xùn)練后,可以在模型訓(xùn)練列表中查看訓(xùn)練任務(wù)的狀態(tài),單擊任務(wù)名稱可以進入詳情頁查看訓(xùn)練結(jié)果、訓(xùn)練任務(wù)詳情和訓(xùn)練日志等。
修改訓(xùn)練作業(yè)優(yōu)先級 使用專屬資源池訓(xùn)練作業(yè)時,支持在創(chuàng)建訓(xùn)練作業(yè)時設(shè)置任務(wù)優(yōu)先級,也支持作業(yè)在長時間處于“等待中”的狀態(tài)時調(diào)整優(yōu)先級。如通過調(diào)整作業(yè)優(yōu)先級可以減少作業(yè)的排隊時長。 什么是訓(xùn)練作業(yè)優(yōu)先級 在用戶運行訓(xùn)練作業(yè)過程中,需要對訓(xùn)練作業(yè)做優(yōu)先級劃分。比如有一些任務(wù)是低優(yōu)先級
tputs/train_url_0" train_url = args.train_url # 判斷輸出路徑中是否有模型文件。如果無文件則默認從頭訓(xùn)練,如果有模型文件,則加載epoch值最大的ckpt文件當做預(yù)訓(xùn)練模型。 if os.listdir(train_url):
變量時,不要使用“MA_”開頭的名稱。 如何修改環(huán)境變量 用戶可以在創(chuàng)建訓(xùn)練作業(yè)頁面增加新的環(huán)境變量,也可以設(shè)置新的取值覆蓋當前訓(xùn)練容器中預(yù)置的環(huán)境變量值。 為保證數(shù)據(jù)安全,請勿輸入敏感信息,例如明文密碼。 訓(xùn)練容器中預(yù)置的環(huán)境變量 訓(xùn)練容器中預(yù)置的環(huán)境變量如下面表格所示,包括表
如何查看ModelArts訓(xùn)練作業(yè)資源占用情況? 在ModelArts管理控制臺,選擇“模型訓(xùn)練>訓(xùn)練作業(yè)”,進入訓(xùn)練作業(yè)列表頁面。在訓(xùn)練作業(yè)列表中,單擊目標作業(yè)名稱,查看該作業(yè)的詳情。您可以在“資源占用情況”頁簽查看到如下指標信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。
1。 訓(xùn)練作業(yè)的資源占用情況系統(tǒng)會自動保存30天,過期會被清除。 如何查看訓(xùn)練作業(yè)資源使用詳情 在ModelArts管理控制臺的左側(cè)導(dǎo)航欄中選擇“模型訓(xùn)練 > 訓(xùn)練作業(yè)”。 在訓(xùn)練作業(yè)列表中,單擊作業(yè)名稱進入訓(xùn)練作業(yè)詳情頁面。 在訓(xùn)練作業(yè)詳情頁面,單擊“監(jiān)控”頁簽查看訓(xùn)練作業(yè)的資
ckpt恢復(fù)中斷的訓(xùn)練 在容錯機制下,如果因為硬件問題導(dǎo)致訓(xùn)練作業(yè)重啟,用戶可以在代碼中讀取預(yù)訓(xùn)練模型,恢復(fù)至重啟前的訓(xùn)練狀態(tài)。用戶需要在代碼里加上reload ckpt的代碼,使能讀取訓(xùn)練中斷前保存的預(yù)訓(xùn)練模型。具體請參見斷點續(xù)訓(xùn)練。 查看容錯與恢復(fù)詳情 當訓(xùn)練作業(yè)發(fā)生故障恢復(fù)時
準備模型訓(xùn)練代碼 預(yù)置框架啟動文件的啟動流程說明 開發(fā)用于預(yù)置框架訓(xùn)練的代碼 開發(fā)用于自定義鏡像訓(xùn)練的代碼 自定義鏡像訓(xùn)練作業(yè)配置實例間SSH免密互信 父主題: 使用ModelArts Standard訓(xùn)練模型
查看模型評估結(jié)果 訓(xùn)練作業(yè)運行結(jié)束后,ModelArts可為您的模型進行評估,并且給出調(diào)優(yōu)診斷和建議。 針對使用預(yù)置算法創(chuàng)建訓(xùn)練作業(yè),無需任何配置,即可查看此評估結(jié)果(由于每個模型情況不同,系統(tǒng)將自動根據(jù)您的模型指標情況,給出一些調(diào)優(yōu)建議,請仔細閱讀界面中的建議和指導(dǎo),對您的模型進行進一步的調(diào)優(yōu))。
模型訓(xùn)練必備要素包括訓(xùn)練代碼、訓(xùn)練框架、訓(xùn)練數(shù)據(jù)。 訓(xùn)練代碼包含訓(xùn)練作業(yè)的啟動文件或啟動命令、訓(xùn)練依賴包等內(nèi)容。 當使用預(yù)置框架創(chuàng)建訓(xùn)練作業(yè)時,訓(xùn)練代碼的開發(fā)規(guī)范可以參考開發(fā)用于預(yù)置框架訓(xùn)練的代碼。 當使用自定義鏡像創(chuàng)建訓(xùn)練作業(yè)時,訓(xùn)練代碼的開發(fā)規(guī)范可以參考開發(fā)用于自定義鏡像訓(xùn)練的代碼。
發(fā)布訓(xùn)練后的模型產(chǎn)物 NLP大模型訓(xùn)練完成后,需要執(zhí)行發(fā)布操作,操作步驟如下: 登錄ModelArts Studio大模型開發(fā)平臺,在“我的空間”模塊,單擊進入所需空間。 圖1 我的空間 在左側(cè)導(dǎo)航欄中選擇“模型開發(fā) > 模型訓(xùn)練”,單擊模型名稱進入任務(wù)詳情頁。 單擊進入“訓(xùn)練結(jié)果”頁簽,單擊“發(fā)布”。