分布式協(xié)同AI基準測試Ianvs開源:工業(yè)場景提升5倍研發(fā)效率
在邊緣計算的浪潮中,AI是邊緣云乃至分布式云中最重要的應(yīng)用。隨著邊緣設(shè)備的廣泛使用和性能提升,將人工智能相關(guān)的部分任務(wù)部署到邊緣設(shè)備已經(jīng)成為必然趨勢。
KubeEdge-Sedna子項目,作為業(yè)界首個分布式協(xié)同AI框架,基于KubeEdge提供的邊云協(xié)同能力,支持現(xiàn)有AI類應(yīng)用無縫下沉到邊緣,降低分布式協(xié)同機器學(xué)習(xí)服務(wù)構(gòu)建與部署成本、提升模型性能、保護數(shù)據(jù)隱私等。
本篇文章為大家闡釋分布式協(xié)同AI技術(shù)背景,研發(fā)落地三大生態(tài)挑戰(zhàn)和社區(qū)調(diào)研報告,并對全新社區(qū)SIG AI子項目(于KubeEdge Summit 2022 重磅發(fā)布):全場景可擴展的分布式協(xié)同AI基準測試項目 Ianvs(雅努斯),進行介紹。該項目能為算法及服務(wù)開發(fā)者提供全面開發(fā)套件支持,以研發(fā)、衡量和優(yōu)化分布式協(xié)同AI系統(tǒng)。歡迎關(guān)注Ianvs項目,持續(xù)獲得第一手獨家公開數(shù)據(jù)集與完善基準測試配套。開源項目GitHub地址:https://github.com/kubeedge/ianvs
01 分布式協(xié)同AI技術(shù)背景
隨著邊側(cè)算力逐步強化,時代也正在見證邊緣AI往分布式協(xié)同AI的持續(xù)演變。分布式協(xié)同AI技術(shù)是指基于邊緣設(shè)備、邊緣服務(wù)器、云服務(wù)器利用多節(jié)點分布式乃至多節(jié)點協(xié)同方式實現(xiàn)人工智能系統(tǒng)的技術(shù)。雖然還在發(fā)展初期,分布式協(xié)同AI成為必然趨勢的驅(qū)動力主要有二。第一,由于數(shù)據(jù)首先在邊緣產(chǎn)生,有大量數(shù)據(jù)處理需要在邊側(cè)運行。第二,由于邊側(cè)逐步具備AI能力,高階數(shù)據(jù)處理需要在邊側(cè)運行。在實際應(yīng)用場景中,以往常見的是云上訓(xùn)練、邊側(cè)推理模式,現(xiàn)在在各個場合已經(jīng)頻繁聽到邊云協(xié)同推理、邊云協(xié)同增量學(xué)習(xí)、邊云協(xié)同終身學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等協(xié)同模式,可以看到邊緣AI向邊云協(xié)同乃至分布式協(xié)同的演進正在發(fā)生。上述這些都使得我們有理由相信,分布式協(xié)同AI是大勢所趨。
關(guān)于分布式協(xié)同AI的產(chǎn)業(yè)發(fā)展形態(tài),根據(jù)Research Dive Analysis預(yù)測,全球邊緣AI乃至分布式協(xié)同AI軟件(算法、平臺等)市場規(guī)模將從2019年的4.36億美元增長到2023年的30.93億美元。分布式協(xié)同AI解決方案市場規(guī)模比例顯著大于服務(wù)。也就是說,與直接提供通用服務(wù)相比,結(jié)合行業(yè)解決方案可能是分布式協(xié)同AI商業(yè)變現(xiàn)的主要途徑。至于與行業(yè)解決方案結(jié)合的話,據(jù)麥肯錫預(yù)測,邊緣AI乃至分布式協(xié)同AI至少覆蓋12個行業(yè)。可以看到,相關(guān)行業(yè)解決方案的市場領(lǐng)域多樣化,通過產(chǎn)業(yè)鏈聚攏乃至壟斷方式來收割商業(yè)價值無疑存在規(guī)模復(fù)制挑戰(zhàn)。因此,從產(chǎn)業(yè)發(fā)展形態(tài)出發(fā)考慮,一家企業(yè)獨大并不可取,與生態(tài)伙伴同行才有可能走得更遠。
鑒于上述分布式協(xié)同AI技術(shù)趨勢和產(chǎn)業(yè)發(fā)展形態(tài),KubeEdge社區(qū)基于CNCF成熟治理模式,成立了KubeEdge SIG AI。其工作目標是基于 KubeEdge 的邊云協(xié)同能力,提供具有低成本、高性能、易用性、隱私保護等優(yōu)勢的邊緣智能平臺。SIG AI工作范圍包括:
1. 構(gòu)建分布式協(xié)同AI框架,高效合理利用端、邊、云的各類資源,并能根據(jù)負載和應(yīng)用類型實時地進行模型調(diào)度,實現(xiàn)高性能和低成本兼?zhèn)涞倪吘堿I系統(tǒng)。
2. 構(gòu)建分布式協(xié)同AI基準測試,識別AI系統(tǒng)中重要指標,幫助用戶評估邊緣AI系統(tǒng)的功能和性能,以衡量和優(yōu)化分布式協(xié)同AI系統(tǒng),揭露各應(yīng)用場景的最佳實踐。
3. 積極與周邊AI平臺、邊緣智能硬件廠商等伙伴開展合作,實現(xiàn)自動化的異構(gòu)資源匹配,減少用戶管理異構(gòu)資源的工作量,提升AI 應(yīng)用的部署管理維護效率。
02 分布式協(xié)同AI應(yīng)用落地挑戰(zhàn)調(diào)研報告
KubeEdge SIG AI及整個行業(yè)各個技術(shù)方案落地與成果轉(zhuǎn)化到產(chǎn)業(yè)的進程正在緊鑼密鼓地進行,大家也經(jīng)常提到sedna進入質(zhì)檢、衛(wèi)星和園區(qū)的案例。但僅憑技術(shù)是不足夠完成落地和產(chǎn)業(yè)轉(zhuǎn)化的。當前學(xué)界業(yè)界很多團隊已經(jīng)遇到各式各樣的困難。社區(qū)從算法開發(fā)者、服務(wù)開發(fā)者和技術(shù)布道者三種邊緣AI研發(fā)角色的需求出發(fā),啟動了邊緣AI研發(fā)落地生態(tài)挑戰(zhàn)問卷調(diào)研,希望進一步了解邊緣AI方案落地與產(chǎn)業(yè)轉(zhuǎn)化過程中遇到的,諸如研發(fā)資源難獲取、工具鏈不完備等主要依賴社區(qū)分工與共享的生態(tài)挑戰(zhàn)。
截止2021年9月20日已回收有效答卷180份。調(diào)研結(jié)果發(fā)現(xiàn)了20+生態(tài)挑戰(zhàn),問卷開放選項采集到49條補充意見和8條補充建議。
1. 調(diào)研對象職業(yè)主要是工業(yè)界從業(yè)者(53.45%),其次是在校學(xué)生(31.03%)和學(xué)術(shù)界研究者(25.86%)。
2. 調(diào)研對象的技術(shù)方向主要是邊緣AI及其應(yīng)用(55.75%)、AI及其應(yīng)用(49.43%)、邊緣計算及其應(yīng)用(42.53%)。也有約四分之一的方向為云計算及其應(yīng)用(25.86%),以及少量的其它方向(13.22%)。
基于調(diào)研結(jié)果已發(fā)布業(yè)界首份邊緣AI落地生態(tài)挑戰(zhàn)調(diào)研報告,可通過下方二維碼掃描獲取。我們也繪制了三種不同角色所反饋的生態(tài)挑戰(zhàn)詞云。
報告的重點內(nèi)容簡要介紹如下:
1. 對于算法開發(fā)者排名第一的挑戰(zhàn)是實際業(yè)務(wù)數(shù)據(jù)集及配套算法難以獲取,排名第二的挑戰(zhàn)是重復(fù)部署整套端邊云系統(tǒng)過于沉重。從中我們可以對于算法開發(fā)總結(jié)出研發(fā)資源支持少的生態(tài)挑戰(zhàn)。
2. 對于服務(wù)開發(fā)者排名第一的挑戰(zhàn)是通用方案整體性能不一定滿足特定業(yè)務(wù)需求,排名第二的挑戰(zhàn)是自研業(yè)務(wù)算法和系統(tǒng)方案周期長成本高。從中我們可以針對服務(wù)開發(fā)總結(jié)出方案選型成本高的生態(tài)挑戰(zhàn)。
3. 對于技術(shù)布道者排名第一的挑戰(zhàn)是缺乏商業(yè)成功案例,排名第二的挑戰(zhàn)是缺乏與現(xiàn)有方案系統(tǒng)對比,包括成本、部署要求。從各挑戰(zhàn)中可以針對技術(shù)布道者總結(jié)出價值呈現(xiàn)晦澀理解難的生態(tài)挑戰(zhàn)。
基于本次調(diào)研,下面從剛剛提到的幾個挑戰(zhàn)出發(fā),進一步了解這個領(lǐng)域各位開發(fā)者的心聲和行業(yè)痛點,探索可能的解決方案。
核心痛點 I:業(yè)務(wù)數(shù)據(jù)集及其配套算法難以獲取
在調(diào)研過程,算法開發(fā)者跟社區(qū)反饋得最多的還是業(yè)務(wù)數(shù)據(jù)集機器配套算法難以獲取
1.正在打造邊緣AI算法利器,有什么實際業(yè)務(wù)可以練兵嗎,在哪找?
2.我認識一家邊緣計算公司在做工業(yè)質(zhì)檢,質(zhì)檢靠譜數(shù)據(jù)有嗎?可以先試一試。
3.公開數(shù)據(jù)集太多,大海撈針翻到頭都禿了。
4.數(shù)據(jù)集要么質(zhì)量不太高,或者要么跟具體業(yè)務(wù)不太匹配……
5.真實、好用的數(shù)據(jù)集說起來輕巧,但新業(yè)務(wù)數(shù)據(jù)集找起來太累了吧。
6.也不知道找哪家公司合適;自己去買設(shè)備采集?
從中可總結(jié)出核心痛點:業(yè)務(wù)數(shù)據(jù)集及其配套算法難以獲取,同時封閉測試環(huán)境難以跟上各類新業(yè)務(wù)孵化。同時看到第一個需求:分布式協(xié)同AI標準數(shù)據(jù)集和配套算法管理與下載,快速上手真實業(yè)務(wù)。
核心痛點 II:通用方案不滿足特定需求在調(diào)研過程,服務(wù)開發(fā)者跟社區(qū)反饋得最多的則是通用方案不一定滿足特定業(yè)務(wù)需求。
1.業(yè)務(wù)問題多得很……一宿一宿睡不著,天天挨客戶罵,現(xiàn)場各種安撫疲于奔命。頂會論文?真的沒有時間看。
2.現(xiàn)有測試數(shù)據(jù)和指標要求與實際業(yè)務(wù)差距過大。聽說算法進展很快,但調(diào)研大半年,嘗試很多算法,要真正能做進客戶心窩里還是很困難的。
3.新業(yè)務(wù)不斷產(chǎn)生,現(xiàn)有測試需要對應(yīng)改進。但現(xiàn)有測試都是那幾個玩具數(shù)據(jù)集和指標,基準固化后還不能改。亟需針對特定場景個性化配置。
4.場景很多,問題更多。針對不同場景甚至相同場景的不同算法范式要針對不同架構(gòu)、接口和參數(shù)使用不同測試工具。這導(dǎo)致在不同邊側(cè)場景,進行各種測試實驗非常繁瑣。要規(guī)?;黄炔捎煤唵渭夹g(shù)。
5.自研人力物力成本高,比如設(shè)備貴、人才高薪。挑戰(zhàn)復(fù)雜難題?中小企業(yè)試試就逝世,不如交給大企業(yè)或者高校(躺)。
從中可總結(jié)出核心痛點:全場景多范式測試成本高、個性化場景的測試用例準備繁瑣。同時看到第二個需求:個性化、全場景測試乃至自動化測試,對癥下藥并降低研發(fā)成本。
03 分布式協(xié)同AI基準測試Ianvs項目
針對上述痛點和挑戰(zhàn),KubeEdge SIG AI全新的社區(qū)子項目——全場景可擴展的分布式協(xié)同AI基準測試工具 Ianvs可以用以解決以上問題。借助單機就可以完成分布式協(xié)同AI前期研發(fā)工作。
1. 針對業(yè)務(wù)數(shù)據(jù)集難以獲取,數(shù)據(jù)采集與處理成本高的痛點,ianvs提供豐富AI生態(tài),做到開箱即用。ianvs開源數(shù)據(jù)集與5+配套算法,覆蓋預(yù)處理、預(yù)訓(xùn)練、訓(xùn)練、推理、后處理全流程,零改造開箱即用。
2. 針對封閉測試環(huán)境難跟上各類新業(yè)務(wù)孵化的痛點,ianvs提供可擴展開放工具鏈。測試環(huán)境管理實現(xiàn)自定義動態(tài)配置測試數(shù)據(jù)集、指標,告別封閉守舊的測試環(huán)境。
3. 針對全場景多范式測試成本高的痛點,ianvs提供全場景靈活切換。ianvs測試用例管理統(tǒng)一不同場景及其AI算法架構(gòu)與接口,能用一套工具同時兼容多種AI范式。
4. 針對個性化場景的測試用例準備繁瑣的痛點,ianvs提供低代碼生成測試用例。ianvs測試用例管理基于網(wǎng)格搜索等輔助生成測試用例,比如一個配置文件即可實現(xiàn)多個超參測試,降低超參搜索時的繁瑣重復(fù)編程。
Ianvs同步發(fā)布一個新的工業(yè)質(zhì)檢數(shù)據(jù)集PCB-AoI。PCB-AoI 數(shù)據(jù)集是開源分布式協(xié)同 AI 基準測試項目 KubeEdge-Ianvs 的一部分。Ianvs 很榮幸成為第一個發(fā)布此數(shù)據(jù)集的站點,Ianvs 項目相關(guān)社區(qū)成員將PCB-AoI 公共數(shù)據(jù)集同時也放在 Kaggle和云服務(wù)上方便各位下載。PCB-AoI工業(yè)質(zhì)檢公開數(shù)據(jù)集下載鏈接請參見:
https://ianvs.readthedocs.io/en/latest/proposals/scenarios/industrial-defect-detection/pcb-aoi.html
PCB-AoI數(shù)據(jù)集由KubeEdge SIG AI 來自中國電信和瑞斯康達的成員發(fā)布。在這個數(shù)據(jù)集中,收集了 230 多個板,圖像數(shù)量增加到 1200 多個。具體來說,數(shù)據(jù)集包括兩部分,即訓(xùn)練集和測試集。訓(xùn)練集包括 173 個板,而測試集包括 60 個板。也就是說,就 PCB 板而言,train-test 比率約為 3:1。進行了數(shù)據(jù)增強,將圖像方面的訓(xùn)練測試比率提高到 1211:60(約 20:1)。train_data 和 test_data 的兩個目錄都包含索引文件,用于關(guān)聯(lián)原始圖像和注釋標簽。
這里同步展示一個Ianvs在工業(yè)場景的案例。本案例是基于PCB-AoI數(shù)據(jù)集的工業(yè)質(zhì)檢。該案例基于工業(yè)視覺AoI設(shè)備輸出視頻圖片,檢測PCB板是否存在貼裝異常。
案例提供了單任務(wù)學(xué)習(xí)和邊云協(xié)同增量學(xué)習(xí)兩種范式。在本案例的單任務(wù)學(xué)習(xí)范式中,數(shù)據(jù)全部上云,在訓(xùn)練階段獲得所有數(shù)據(jù)。在本案例的邊云協(xié)同增量學(xué)習(xí)范式中,數(shù)據(jù)部分上云,訓(xùn)練數(shù)據(jù)分兩輪提供。Ianvs除算法指標外,還可監(jiān)控系統(tǒng)指標,如樣本上云比例指標。測試的基礎(chǔ)模型選用特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Networks)。
基準測試結(jié)果顯示,待測FPN算法F1性能在0.84-0.95波動。邊云協(xié)同增量學(xué)習(xí)可節(jié)省近50%的上云數(shù)據(jù)量,同時獲得10%以上的精度提升。如下圖所示,增量前1處漏檢:僅檢出7處,增量后全部檢出:檢出全部8處缺陷。
Ianvs將提供開箱即用的數(shù)據(jù)集與配套算法,借助支持多場景范式切換和易擴展的工具鏈,以及測試用例的低代碼自動生成能力,來降低開發(fā)者在分布式協(xié)同AI應(yīng)用開發(fā)測試時的門檻,技術(shù)驗證時間半年降低到1個月,提升5倍研發(fā)效率。
Ianvs發(fā)布之際在此也特別感謝社區(qū)10+初創(chuàng)單位。社區(qū)也持續(xù)募集在Ianvs項目上的合作伙伴,共同孵化開源項目、研究報告及行業(yè)標準等。
KubeEdge-Ianvs 初創(chuàng)單位
對于未來工作上,Ianvs項目希望進一步解決各位社區(qū)用戶的問題。
首先,算法開發(fā)者們投票第二位的挑戰(zhàn)是重復(fù)部署端邊云系統(tǒng)費時費力的問題
1.只是想聚焦系統(tǒng)上的分布式調(diào)度而已,需要自己把遷移學(xué)習(xí)、增量學(xué)習(xí)、聯(lián)邦學(xué)習(xí)算法啥的協(xié)同機器學(xué)習(xí)算法學(xué)一遍很痛苦
2.想聚焦系統(tǒng)上的AI算法而已,真需要寫那么多系統(tǒng)代碼,把整一套邊云協(xié)同系統(tǒng)自己搭起來非常不友善
3. 費力氣搭系統(tǒng),也不足以落地應(yīng)用到工業(yè)界……工業(yè)界有些系統(tǒng)機制,包括模型管理和維護等,能為模型上線護航
4.好了,組里花大錢搭起來,系統(tǒng)和算法終于能用了,但眼看著一年過去,馬上畢業(yè)來不及科研……AI系統(tǒng)的構(gòu)建對于高校團隊來說費時過長成本過高,簡直大坑
5.很多公司已經(jīng)有了,重復(fù)造輪子感覺憋屈。想在巨人肩膀上實現(xiàn)系統(tǒng)突破,搞大事情
因此第一項未來工作可以是實現(xiàn)工業(yè)級分布式協(xié)同系統(tǒng)仿真,提升方案研發(fā)效率。
另外一個未來工作,可以是關(guān)于技術(shù)布道者和最終用戶的價值呈現(xiàn)問題:
1.缺乏與先前方案的對比。受眾不明白什么是邊緣,跟以前有什么區(qū)別
2.客戶有數(shù)據(jù),伙伴有研發(fā),但因數(shù)據(jù)使用協(xié)議,數(shù)據(jù)無法出邊緣,經(jīng)常需要駐場調(diào)整
3.沒有界面,缺乏demo,方案不直觀,客戶看不懂,沒有吸引力
因此第二項未來工作可以是算法/范式測試排行與最佳方案展示,做好價值呈現(xiàn)。
Ianvs項目規(guī)劃路標如下圖。歡迎關(guān)注Ianvs項目,持續(xù)獲得第一手獨家公開數(shù)據(jù)集與完善基準測試配套。社區(qū)也持續(xù)募集在Ianvs項目上的合作伙伴,共同孵化開源項目、研究報告及行業(yè)標準等。
開源項目GitHub地址:
https://github.com/kubeedge/ianvs
作者介紹
鄭子木,華為云邊緣云創(chuàng)新實驗室主任工程師。2019年博士畢業(yè)于香港理工大學(xué),研究方向為邊緣AI、多任務(wù)遷移學(xué)習(xí)及AIoT。發(fā)表國際相關(guān)領(lǐng)域頂級會議及期刊 (TPDS、IJCAI、 ICDCS、CIKM、TOSN、e-Energy、TIST等) 論文近20篇,多次獲得國際會議年度唯一最佳論文獎項,獲得華為公司技術(shù)貢獻獎項20+?,F(xiàn)正帶領(lǐng)團隊參與KubeEdge SIG AI的開源工作。
更多項目詳細介紹,可B站查看:
https://www.bilibili.com/video/BV1Ed4y1T7vt
聯(lián)系我們
微信添加相關(guān)負責人,備注KubeEdge-Ianvs
進一步了解KubeEdge-Ianvs
掃碼回復(fù)“進群”和KubeEdge成員交流