profiling
api接口性能監(jiān)控工具
api接口性能監(jiān)控工具針對基于Profiling性能分析工具的關(guān)鍵性能數(shù)據(jù)采集、熱點函數(shù),提供一站式分析工具,幫助用戶快速定位性能瓶頸。不支持在同一個Device側(cè)同時拉取網(wǎng)絡(luò)。Profiling不支持多個基于相同結(jié)果目錄的Profiling,可能會導(dǎo)致采集的數(shù)據(jù)結(jié)果不準確。比如main程序中包含多個獨立推理任務(wù),通過Profiling調(diào)用時會出現(xiàn)該問題。不支持在同一個Device側(cè)同時拉起多個Profiling任務(wù)。配置Profiling相關(guān)路徑時,僅支持路徑由字母、數(shù)字和下劃線字符組成,不支持帶有特殊字符的路徑。Profiling功能與Dump功能不建議同時使用,即啟動Profiling前,請關(guān)閉數(shù)據(jù)Dump。原因:如果同時開啟,由于Dump操作會影響系統(tǒng)性能,會造成Profiling采集的性能數(shù)據(jù)指標不準確。采集Profiling數(shù)據(jù)過程中如果配置的落盤路徑磁盤空間已滿,會出現(xiàn)性能數(shù)據(jù)無法落盤情況,因此,需要用戶保證磁盤空間夠用。另外,落盤的性能原始數(shù)據(jù)需要用戶自行老化,預(yù)防磁盤空間被占滿(MB/s)。落盤的性能原始數(shù)據(jù)可以通過配置storage-limit參數(shù)來預(yù)防磁盤空間被占滿(<=20MB)(/s),用戶將磁盤內(nèi)最早的文件進行老化刪除處理。
ai識字
ai識字:為了改善los鯤鵬計算的性能,可獲得相同性能瓶頸。在程序訓(xùn)練過程中,F(xiàn)P+FP+BP耗時占總耗時,不存在性能瓶頸。基于以上的性能數(shù)據(jù)增強可以通過更新拖尾,開啟Profiling功能查看。Profiling性能分析功能與優(yōu)化提供的性能數(shù)據(jù)(如bp_point+fp_point+fp_point整個鏈路的算子耗時具體情況)。在該文件中,著重看TaskDuration列,它記錄著當(dāng)前算子的耗時??梢酝ㄟ^表格中的自定義排序,選擇TaskDuration為主要關(guān)鍵字,進行降序重排表格,開頭部分截圖如下??梢姡?dāng)前網(wǎng)絡(luò)中涉及的算子,最大耗時僅231.54us。圖6op_summary從該表中依舊無法判斷耗時較長的原因,那么繼續(xù)打開AICore算子調(diào)用次數(shù)及耗時數(shù)據(jù)。該文件是對bp_point+fp_point整個鏈路上算子,不區(qū)分OPName,按算子的OPType做了統(tǒng)計。比如將Mul算子統(tǒng)計為一行,統(tǒng)計調(diào)用次數(shù),總耗時,平均耗時,最大耗時,最小耗時等。通過表格中的自定義排序,選擇Ratio(%)為主要關(guān)鍵字,進行降序重排表格,截圖如下??梢?,AICPU在整體耗時占比達到76.5%。通過表格中的自定義排序,選擇Total_time為主要關(guān)鍵字,進行降序重排表格,截圖如下??梢钥吹皆贏ICPU中耗時最大的是dropout算子中的隨機數(shù)函數(shù),且已經(jīng)達到了毫秒級別。圖8aicpu到此Profiling性能分析工具的任務(wù)已經(jīng)完成。問題解決查看用戶腳本,發(fā)現(xiàn)用戶腳本中的drop腳本使用的是TensorFlow的原生腳本。