在訓練模型后,用戶往往需要通過測試 數(shù)據(jù)集 來評估新模型的泛化能力。通過驗證測試數(shù)據(jù)集上的平均損失,可以評估模型對未知數(shù)據(jù)的預測能力。模型評價指標是評估模型泛化能力的標準,不同的指標往往會導致不同的評判結(jié)果。
ModelArts模型評估/診斷功能針對不同類型模型的評估任務,提供相應的評估指標。在展示評估結(jié)果的同時,會根據(jù)不同的數(shù)據(jù)特征對模型進行詳細的評估,獲得每個數(shù)據(jù)特征對評估指標的敏感度,并給出優(yōu)化建議。模型評估/診斷功能幫助用戶可以全面了解模型對不同數(shù)據(jù)特征的適應性,使得模型調(diào)優(yōu)可以做到有的放矢。

當前模型評估功能覆蓋圖像分類、物體檢測和圖像語義分割三大場景,快來看看如何使用模型評估功能吧~
圖像分類
|
指標名稱 |
子參數(shù) |
說明 |
| 精度評估 | 圖像類別分布 | 不同類別圖片數(shù)量的統(tǒng)計值。 |
| 混淆矩陣 | 混淆矩陣可幫助您了解分類錯誤的出現(xiàn)位置 | |
| 召回率 | 召回率,正確預測的正例數(shù)和實際正例總數(shù)的比值,這個值越大代表漏檢的概率越小。計算公式R=TP/(TP+FN),即混淆矩陣中某一列預測正確的個數(shù)除以該列的樣本和。 | |
| 精確率 | 精確率,正確預測的正例數(shù)和預測正例總數(shù)的比值,這個值越大代表誤檢的概率越小。計算公式P=TP/(TP+FP),即混淆矩陣中某一行預測正確的個數(shù)除以該行的樣本和。 | |
| F1值 | 精確率與召回率的調(diào)和均值。計算公式F1=2*P*R/(P+R),其中R為召回率,P為精確率。 | |
| ROC 曲線 | ROC 曲線用于繪制采用不同分類閾值時的 TPR (真正例率,縱坐標)與 FPR(假正例率,橫坐標),ROC曲線越接近左上角,該分類器的性能越好。 | |
| 敏感度分析 | 不同特征范圍下的準確率 | 將圖片根據(jù)特征值,如亮度、模糊度等劃分為幾個部分,分別測試幾個部分的精度然后繪圖。 |
| 特征分布 | 圖片特征值的分布圖。 | |
| 值敏感度 | 展示不同類別數(shù)據(jù)在不同特征值范圍內(nèi)的F1值 ,用于判別模型對哪個特征范圍內(nèi)的圖片效果較好。 |
物體檢測
|
指標名稱 |
子參數(shù) |
說明 |
| 精度評估 | 圖像類別分布 | 數(shù)據(jù)集中不同類別的圖像框個數(shù)統(tǒng)計。 |
| P-R曲線 | 根據(jù)每種分類的置信度對樣例進行排序,逐個把樣例加入正例進行預測,算出此時的精準率和召回率。使用這一系列的精準率和召回率繪制的曲線,即是一個類別的P-R曲線。 | |
| 不同目標框交并比閾值下的mAP | 計算不同目標框交并比閾值下的mAP值,并繪制曲線,反饋mAP值最高的閾值。其中交并比閾值是用于NMS時過濾可能預測為同一物體的重疊框的閾值。
|
|
| 不同置信度閾值下的F1值 | 計算不同置信度閾值下的平均F1值,并繪制曲線,反饋F1值最高的閾值。 | |
| 誤檢分析 |
從預測結(jié)果角度統(tǒng)計錯誤檢測的結(jié)果,包含準確檢測、類別誤檢、背景誤檢、位置偏差四種誤檢的錯誤類型,繪制成餅圖,統(tǒng)計各類錯誤占錯誤檢測的比例。 |
|
| 漏檢分析 | 從實際標簽角度統(tǒng)計遺漏檢測的結(jié)果,包含準確檢測、類別誤檢、背景誤檢、位置偏差四種漏檢的結(jié)果類型,繪制成餅圖,統(tǒng)計各類錯誤占漏檢錯誤的比例。
|
|
| 敏感度分析 | 不同特征范圍下的準確率 | 與圖像分類相似,但可選更多和目標框相關的特征,如目標框的交疊程度,目標框的個數(shù)。 |
| 特征分布 | 與圖像分類相似,但可選更多和目標框相關的特征,如目標框的交疊程度,目標框的個數(shù)。 |
圖像語義分割
|
指標名稱 |
子參數(shù) |
說明 |
| 精度評估 | 圖像類別分布 | 數(shù)據(jù)集中不同類別的像素個數(shù)統(tǒng)計。 |
| 交并比 | 簡稱IoU,計算每一類預測結(jié)果與標簽的交并比,表達了預測集合與標簽集合的交并比,對各類別的值求平均獲得的就是平均交并比。交并比計算公式如下所示。
|
|
|
Dice系數(shù) |
取值范圍為0-1,越接近1說明模型越好。Dice系數(shù)計算公式如下所示。
|
調(diào)用模型評估接口了解評估結(jié)果
ModelArts提供了“analyse”接口,用于模型評估。用戶在推理結(jié)束后,傳入指定參數(shù)調(diào)用該接口即可獲取評估結(jié)果。
analyse(task_type='',pred_list=[],label_list=[],name_list=[],custom_metric='',label_map_dict='')




