數(shù)據(jù)管理有哪些功能?
數(shù)據(jù)管理平臺提供了聚類分析、數(shù)據(jù)特征分析、數(shù)據(jù)清洗、數(shù)據(jù)校驗、數(shù)據(jù)增強、數(shù)據(jù)選擇等分析處理能力,可幫助開發(fā)者進一步理解數(shù)據(jù)和挖掘數(shù)據(jù),從而準備出一份滿足開發(fā)目標或項目要求的高價值數(shù)據(jù)。
開發(fā)者在數(shù)據(jù)管理平臺可以在線完成圖像分類、目標檢測、音頻分割、文本三元組、視頻分類等各種標注場景,同時也可以使用ModelArts智能標注方案,通過預置算法或自定義算法代替人工完成數(shù)據(jù)標注,提升標注效率。
針對大規(guī)模協(xié)同標注場景,數(shù)據(jù)管理平臺還提供了強大的團隊標注,支持標注團隊管理、人員管理、角色管理等,實現(xiàn)從項目的創(chuàng)建、數(shù)據(jù)分配、進度把控、標注、審核、驗收全流程。為用戶帶來標注效率提升的同時,又最小化項目管理開銷。
此外,數(shù)據(jù)管理平臺時刻保障用戶數(shù)據(jù)的安全性和隱私性,確保用戶數(shù)據(jù)僅在授權范圍內使用。

數(shù)據(jù)集管理
如何快速在數(shù)據(jù)管理平臺創(chuàng)建數(shù)據(jù)集
須知
1.數(shù)據(jù)管理功能需要獲取訪問OBS權限,在未進行委托授權之前,無法使用此功能。在使用數(shù)據(jù)管理功能之前,請前往“全局配置”頁面,使用委托完成訪問授權。
2.已創(chuàng)建用于存儲數(shù)據(jù)的OBS桶及文件夾。并且,數(shù)據(jù)存儲的OBS桶與ModelArts在同一區(qū)域。當前不支持OBS并行文件系統(tǒng),請選擇OBS對象存儲。
3.ModelArts不支持加密的OBS桶,創(chuàng)建OBS桶時,請勿開啟桶加密。
在數(shù)據(jù)管理平臺創(chuàng)建數(shù)據(jù)集
1.登錄ModelArts管理控制臺,選擇數(shù)據(jù)管理>數(shù)據(jù)集。
2.單擊創(chuàng)建數(shù)據(jù)集。
3.選擇數(shù)據(jù)類型與數(shù)據(jù)來源以及導入路徑。
4.單擊提交,完成數(shù)據(jù)集的創(chuàng)建。
創(chuàng)建數(shù)據(jù)集時的數(shù)據(jù)接入:
1.從OBS導入數(shù)據(jù),創(chuàng)建數(shù)據(jù)集。
2.從本地上傳數(shù)據(jù),創(chuàng)建數(shù)據(jù)集。
3.從AI Gallery下載數(shù)據(jù),創(chuàng)建數(shù)據(jù)集。
4.從DLI導入數(shù)據(jù)。
5.從MRS導入數(shù)據(jù)。
6.從DWS導入數(shù)據(jù)。
數(shù)據(jù)管理-人工標注
圖片標注
ModelArts數(shù)據(jù)標注中的圖片標注指圖片類型的數(shù)據(jù)集進行標注。圖片標注的標注作業(yè)類型,分為“圖像分類”、“物體檢測”、“圖像分割”三種標注類型。
文本標注
文本場景的標注主要為“文本分類”、“命名實體”、“文本三元組”。
分別支持對文本的內容按照標簽進行分類處理。
對文本中的實體片段進行標注。
對文本的實體片段以及實體之間的關系進行標注。
音頻標注
對聲音進行分類。
對語音內容進行標注。
對語音進行分段標注。
視頻標注
由于模型訓練過程需要大量有標簽的視頻數(shù)據(jù),因此在模型訓練之前需對沒有標簽的視頻添加標簽。通過ModelArts您可對視頻添加標簽,快速完成對視頻的標注操作,也可以對已標注視頻修改或刪除標簽進行重新標注。
數(shù)據(jù)管理-智能標注
除了人工標注外,ModelArts數(shù)據(jù)管理平臺還提供了智能標注功能,快速完成數(shù)據(jù)標注,為您節(jié)省70%以上的標注時間。數(shù)據(jù)管理中的智能標注是指基于當前標注階段的標簽及圖片學習訓練,選中系統(tǒng)中已有的模型進行智能標注,快速完成剩余圖片的標注操作。
須知:
- 目前只有“圖像分類”和“物體檢測”類型的標注作業(yè)支持智能標注功能。
- 啟動智能標注時,需標注作業(yè)存在至少2種標簽,且每種標簽已標注的圖片不少于5張。
- 啟動智能標注時,必須存在未標注圖片。
- 啟動智能標注前,保證當前系統(tǒng)中不存在正在進行中的智能標注任務。
- 檢查用于標注的圖片數(shù)據(jù),確保您的圖片數(shù)據(jù)中,不存在RGBA四通道圖片。如果存在四通道圖片,智能標注任務將運行失敗,因此,請從數(shù)據(jù)集中刪除四通道圖片后,再啟動智能標注。
啟動智能標注:
- 1.登錄ModelArts管理控制臺,在左側菜單欄中選擇“數(shù)據(jù)管理 > 數(shù)據(jù)標注”,進入“數(shù)據(jù)標注”管理頁面。
- 2.在標注作業(yè)列表中,選擇“物體檢測”或“圖像分類”類型的標注作業(yè),單擊操作列的“智能標注”啟動智能標注作業(yè)。
- 3.在彈出的“啟動智能標注”對話框中,選擇智能標注類型,可選“主動學習”或者“預標注”。
- 4.完成參數(shù)設置后,單擊“提交”,即可啟動智能標注。
- 5.在標注作業(yè)列表中,單擊標注作業(yè)名稱進入“標注作業(yè)詳情”頁。
- 6.在“數(shù)據(jù)集概覽頁標注作業(yè)詳情頁”,選擇“標注”頁簽,單擊“待確認”頁簽,即可查看智能標注進度。您也可以在該頁簽,“啟動智能標注”或者查看“智能標注歷史”
數(shù)據(jù)管理-團隊標注
數(shù)據(jù)管理平臺針對數(shù)據(jù)集較大的數(shù)據(jù)標注任務,需要多人協(xié)助完成。ModelArts提供了團隊標注功能,可以由多人組成一個標注團隊,針對同一個數(shù)據(jù)集進行標注管理。
數(shù)據(jù)管理-數(shù)據(jù)發(fā)布
須知
- 1.數(shù)據(jù)管理中針對剛創(chuàng)建的數(shù)據(jù)集(未發(fā)布前),無數(shù)據(jù)集版本信息,必須執(zhí)行發(fā)布操作后,才能應用于模型開發(fā)或訓練。
- 2.在數(shù)據(jù)管理中數(shù)據(jù)集版本,默認按V001、V002遞增規(guī)則進行命名,您也可以在發(fā)布時自定義設置。
- 3.您可以將任意一個版本設置為當前目錄,即表示數(shù)據(jù)集列表中進入的數(shù)據(jù)集詳情,為此版本的數(shù)據(jù)及標注信息。
- 4.數(shù)據(jù)管理針對每一個數(shù)據(jù)集版本,您可以通過“存儲路徑”參數(shù),獲得此版本對應的Manifest文件格式的數(shù)據(jù)集??捎糜趯霐?shù)據(jù)或難例篩選操作。
- 5.表格數(shù)據(jù)集暫不支持切換版本。
操作步驟
- 1.登錄ModelArts管理控制臺,在左側菜單欄中選擇“數(shù)據(jù)管理> 數(shù)據(jù)集”,進入“數(shù)據(jù)集”管理頁面。
- 2.在數(shù)據(jù)集列表中,單擊操作列的“發(fā)布”。或者,您可以單擊數(shù)據(jù)集名稱,進入數(shù)據(jù)集“概覽”頁,在頁面右上角單擊“發(fā)布”。
- 3.在“發(fā)布新版本”彈出框中,填寫發(fā)布數(shù)據(jù)集的相關參數(shù),然后單擊“確定”。