profiling
api接口性能監(jiān)控工具
api接口性能監(jiān)控工具針對基于Profiling性能分析工具的關鍵性能數據采集、熱點函數,提供一站式分析工具,幫助用戶快速定位性能瓶頸。不支持在同一個Device側同時拉取網絡。Profiling不支持多個基于相同結果目錄的Profiling,可能會導致采集的數據結果不準確。比如main程序中包含多個獨立推理任務,通過Profiling調用時會出現該問題。不支持在同一個Device側同時拉起多個Profiling任務。配置Profiling相關路徑時,僅支持路徑由字母、數字和下劃線字符組成,不支持帶有特殊字符的路徑。Profiling功能與Dump功能不建議同時使用,即啟動Profiling前,請關閉數據Dump。原因:如果同時開啟,由于Dump操作會影響系統(tǒng)性能,會造成Profiling采集的性能數據指標不準確。采集Profiling數據過程中如果配置的落盤路徑磁盤空間已滿,會出現性能數據無法落盤情況,因此,需要用戶保證磁盤空間夠用。另外,落盤的性能原始數據需要用戶自行老化,預防磁盤空間被占滿(MB/s)。落盤的性能原始數據可以通過配置storage-limit參數來預防磁盤空間被占滿(<=20MB)(/s),用戶將磁盤內最早的文件進行老化刪除處理。
ai識字
ai識字:為了改善los鯤鵬計算的性能,可獲得相同性能瓶頸。在程序訓練過程中,FP+FP+BP耗時占總耗時,不存在性能瓶頸?;谝陨系男阅軘祿鰪娍梢酝ㄟ^更新拖尾,開啟Profiling功能查看。Profiling性能分析功能與優(yōu)化提供的性能數據(如bp_point+fp_point+fp_point整個鏈路的算子耗時具體情況)。在該文件中,著重看TaskDuration列,它記錄著當前算子的耗時??梢酝ㄟ^表格中的自定義排序,選擇TaskDuration為主要關鍵字,進行降序重排表格,開頭部分截圖如下。可見,當前網絡中涉及的算子,最大耗時僅231.54us。圖6op_summary從該表中依舊無法判斷耗時較長的原因,那么繼續(xù)打開AICore算子調用次數及耗時數據。該文件是對bp_point+fp_point整個鏈路上算子,不區(qū)分OPName,按算子的OPType做了統(tǒng)計。比如將Mul算子統(tǒng)計為一行,統(tǒng)計調用次數,總耗時,平均耗時,最大耗時,最小耗時等。通過表格中的自定義排序,選擇Ratio(%)為主要關鍵字,進行降序重排表格,截圖如下??梢?,AICPU在整體耗時占比達到76.5%。通過表格中的自定義排序,選擇Total_time為主要關鍵字,進行降序重排表格,截圖如下。可以看到在AICPU中耗時最大的是dropout算子中的隨機數函數,且已經達到了毫秒級別。圖8aicpu到此Profiling性能分析工具的任務已經完成。問題解決查看用戶腳本,發(fā)現用戶腳本中的drop腳本使用的是TensorFlow的原生腳本。