KubeEdge SIG AI 進(jìn)展與規(guī)劃
來源微信公眾號:KubeEdge
在2022云原生邊緣計算峰會KubeEdge Summit上,德國HPI研究院多媒體與機(jī)器學(xué)習(xí)科研組負(fù)責(zé)人楊浩進(jìn)介紹了邊緣AI的現(xiàn)狀和趨勢,KubeEdge SIG AI的進(jìn)展和規(guī)劃。

01 邊緣AI現(xiàn)狀與趨勢
在介紹場景之前,楊浩進(jìn)老師提供給大家兩個統(tǒng)計數(shù)據(jù)。第一個數(shù)字是關(guān)于AI發(fā)展到目前階段所遇到的算力瓶頸問題。由于在過去10年云計算和高性能計算硬件的蓬勃發(fā)展,我們都普遍認(rèn)為AI計算的算力瓶頸已經(jīng)被解決了。但實(shí)際上,隨著目前最前沿的AI大模型的快速發(fā)展,它已經(jīng)成為自然語言處理和計算機(jī)視覺兩大領(lǐng)域的重要發(fā)展方向。自 2018 年 語言模型BERT 誕生,到 GPT-3、ViT 等擁有數(shù)以億計的參數(shù)規(guī)模的模型不斷涌現(xiàn)。與此同時, 大模型對計算和內(nèi)存資源提出了巨大的挑戰(zhàn), 比如用一個NVIDIA A100 GPU 訓(xùn)練千億參數(shù)模型的 GPT-3,需要用時 100 多年。根據(jù) OpenAI 的報告,模型大小的增長速度是每 3.5 月翻一倍。因此,業(yè)內(nèi)不得不將計算擴(kuò)展到多個和多種類的設(shè)備上,分布式計算成為了未來的必然選擇。
此外,AI計算帶來的碳排放量是巨大的,對碳中和戰(zhàn)略也帶來了額外挑戰(zhàn),不應(yīng)被忽視。例如使用神經(jīng)架構(gòu)搜索訓(xùn)練一次transformer模型所需的碳排放量約等于300人次往返于紐約和舊金山的飛行。另一個例子是openAI的GPT3模型,它的一次訓(xùn)練所消耗的電能和碳排放相當(dāng)于43輛車或24個美國家庭一年的排放量。而這些挑戰(zhàn)和問題,都可以通過分布式的邊緣AI計算范式來解決。
根據(jù) Gartner 的預(yù)測,到 2020 年,全球物聯(lián)網(wǎng)設(shè)備的數(shù)量將超過 200 億臺。同時,設(shè)備本身也變得越來越智能化。因此,Edge AI 在過去幾年成為了一個快速發(fā)展的領(lǐng)域。它可能在未來3年內(nèi)達(dá)到頂峰。到 2022 年,50% 的企業(yè)生成數(shù)據(jù)將在傳統(tǒng)數(shù)據(jù)中心或云之外處理,而這一數(shù)字在 2018 年還不到 10%。
此外,根據(jù)全球技術(shù)市場咨詢公司ABI Research的報告,預(yù)計到2025年,邊緣AI芯片組市場收入將達(dá)到122億美元,云端AI芯片組市場收入將達(dá)到119億美元。邊緣 AI 芯片組市場將超過云端 AI 芯片組市場。
在邊緣計算的浪潮中,AI是邊緣云乃至分布式中最重要的應(yīng)用
隨著邊緣設(shè)備的廣泛使用和性能提升,將人工智能相關(guān)的部分任務(wù)部署到邊緣設(shè)備已經(jīng)成為必然趨勢,而基于邊緣設(shè)備、邊緣服務(wù)器、云服務(wù)器利用分布式乃至協(xié)同方式實(shí)現(xiàn)人工智能的技術(shù)就是我們所說的分布式協(xié)同AI技術(shù)。
分布式協(xié)同AI核心驅(qū)動力:“數(shù)據(jù)首先在邊緣”,邊側(cè)逐步具備AI能力。這讓我們有理由相信雖然分布式協(xié)同AI還是發(fā)展初期,但已經(jīng)是大勢所趨,能夠走得更遠(yuǎn)。隨著邊側(cè)算力逐步強(qiáng)化,邊緣AI模式正在持續(xù)演變從當(dāng)前“云上訓(xùn)練、邊側(cè)推理”模式,向邊云協(xié)同乃至分布式協(xié)同演進(jìn)。


邊緣AI的另一個核心驅(qū)動力是我們可以看到AI正在逐步滲透到越來越多的邊緣場景。從傳統(tǒng)的工業(yè)制造、農(nóng)業(yè)、交通以及零售行業(yè),到新興的智慧城市,智能醫(yī)療、家居。設(shè)備從汽車,飛機(jī),甚至衛(wèi)星,到手機(jī)、手表、頭顯眼鏡??梢钥隙ǖ氖?,Edge AI 時代即將到來。它將改變?nèi)斯ぶ悄苣J剑淖冞吘売嬎丬浻布鷳B(tài),讓我們的生活更加舒適和智能。
那么邊緣人工智能面臨哪些挑戰(zhàn)?首先,Edge AI 的一個重大挑戰(zhàn)是每個邊緣節(jié)點(diǎn)的異構(gòu)性。我們必須處理大量的硬件架構(gòu)、操作系統(tǒng)和不同的人工智能軟件框架。我們可以看到,三個不同維度的異質(zhì)性顯著增加了實(shí)現(xiàn)的難度。
一個重要的問題是如何在 Edge AI 場景中更好地保護(hù)數(shù)據(jù)隱私。我認(rèn)為這應(yīng)該是 EdgeAI 技術(shù)棧的一個優(yōu)勢。但是,從另一個角度來看,更嚴(yán)格的數(shù)據(jù)隱私政策可能會導(dǎo)致數(shù)據(jù)孤島問題。通常,由于隱私保護(hù)和其他原因,它們無法共享。因此,AI 算法無法將每個邊緣節(jié)點(diǎn)的數(shù)據(jù)有效地結(jié)合在一起使用。
傳統(tǒng)的集中式 AI 方法帶來了顯著的性能下降,例如在邊緣場景下收斂速度較低,模型精度較差。在傳統(tǒng)的監(jiān)督學(xué)習(xí)研究中,IID(獨(dú)立同分布)是一個重要的假設(shè)。通常,當(dāng)我們做機(jī)器學(xué)習(xí)任務(wù)時,我們假設(shè)我們的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有相同的分布。樣本彼此獨(dú)立。比如 CIFAR 數(shù)據(jù)集,因?yàn)橛?xùn)練集和測試集是平分的,如果你從這兩組中隨機(jī)選擇一個樣本,它屬于其中一個類的概率是 10%。這是 IID。在實(shí)踐中,Edge 節(jié)點(diǎn)的數(shù)據(jù)分布存在相當(dāng)大的差異。另外,預(yù)訓(xùn)練模型的數(shù)據(jù)分布和邊緣節(jié)點(diǎn)的測試數(shù)據(jù)分布也可能相差很大,所以我們面臨的是一個 Non-IID 問題。這個問題在學(xué)界仍然是研究的重點(diǎn)問題
另外一個問題是邊緣節(jié)點(diǎn)通常只有有限的資源。例如,它的電源、計算和存儲資源遠(yuǎn)低于云端設(shè)備。此外,帶寬也是一個可能的瓶頸。我們在設(shè)計算法和軟件時需要考慮這些問題。除了邊緣數(shù)據(jù)分布不均,我們還可能面臨樣本太少的問題,無法有效進(jìn)行模型訓(xùn)練。此外,我們可能會遇到未知的數(shù)據(jù)類,這將導(dǎo)致監(jiān)督學(xué)習(xí)方法的徹底失敗。
02 KubeEdge SIG AI 進(jìn)展
KubeEdge是業(yè)界首個云原生邊緣計算框架、云原生計算基金會內(nèi)部唯一孵化級邊緣計算開源項(xiàng)目。KubeEdge在全球已擁有900+貢獻(xiàn)者和70+貢獻(xiàn)組織,在GitHub獲得5.7k+Stars和1.7k+Forks。
近年來,KubeEdge社區(qū)持續(xù)開拓創(chuàng)新,完成業(yè)界最大規(guī)模云原生邊云協(xié)同高速公路項(xiàng)目(統(tǒng)一管理10萬邊緣節(jié)點(diǎn)/50萬邊緣應(yīng)用)、業(yè)界首個云原生星地協(xié)同衛(wèi)星、業(yè)界首個云原生車云協(xié)同汽車、業(yè)界首個云原生油田項(xiàng)目,開源業(yè)界首個分布式協(xié)同AI框架Sedna及業(yè)界首個邊云協(xié)同終身學(xué)習(xí)范式。
并且,在本次峰會上KubeEdge SIG AI還發(fā)布了開源業(yè)界首個分布式協(xié)同AI基準(zhǔn)測試套件Ianvs,面向分布式協(xié)同AI的算法和服務(wù)開發(fā)者在單機(jī)層面快速孵化算法及解決方案,有開箱即用安裝簡單、工具鏈開放可擴(kuò)展、全場景靈活切換和低代碼生成測試用例等優(yōu)點(diǎn)。

分布式協(xié)同AI框架 Sedna無疑是目前SIG AI最核心最重要的工作。它可以說是業(yè)界首個專注云邊協(xié)同分布式AI的開源項(xiàng)目。
Sedna的核心理念是基于KubeEdge提供的邊云協(xié)同基礎(chǔ)框架,打造中間服務(wù)以支持現(xiàn)有AI應(yīng)用無縫下沉到邊緣。Sedna的使命是打通AI應(yīng)用和云邊協(xié)同計算能力的通路。讓邊緣計算和AI社區(qū)的開發(fā)者們都能夠獲益。它降低了分布式協(xié)同機(jī)器學(xué)習(xí)服務(wù)構(gòu)建與部署成本、提升模型性能、保護(hù)數(shù)據(jù)隱私等。
更具體來說,Sedna提供為AI應(yīng)用提供數(shù)據(jù)處理和模型管理的基礎(chǔ)架構(gòu)。它基于重要場景,推出了實(shí)用性強(qiáng)的特性,例如協(xié)同推理,聯(lián)邦學(xué)習(xí),增量學(xué)習(xí)終身學(xué)習(xí)等等。這些特性都是針對邊緣AI的優(yōu)勢以及要解決的技術(shù)難點(diǎn),結(jié)合場景需求而開發(fā)的。我想實(shí)用性強(qiáng)是這些特性非常重要的特點(diǎn)。
下面給大家介紹兩個場景:
一個是基于Sedna多邊協(xié)同特性實(shí)現(xiàn)了目標(biāo)追蹤和再識別。并且這個新的技術(shù)特性有效支持了前不久的新冠流調(diào),在這個有挑戰(zhàn)性的場景中進(jìn)行了驗(yàn)證。
目前常規(guī)的流調(diào)方法是完全基于人工篩查的方式,在新冠傳染性極強(qiáng),傳播速度快的背景下,常規(guī)流調(diào)可以說是費(fèi)時費(fèi)力。目標(biāo)是尋找傳播途徑、提供隔離依據(jù)。為此可能需要人工逐個打電話問詢,要回憶14天去過什么地方接觸過誰。但實(shí)際情況是根本難以回憶14天接觸過什么人,而且無法鎖定陌生人。
基于以上傳統(tǒng)流調(diào)手段效率低的難點(diǎn),我們開發(fā)了基于視頻分析的自動化目標(biāo)追蹤和再識別的方案。首先希望有效支持園區(qū)、商超范圍內(nèi)的病例密接以及次密接的快速篩查。
這個方案有以下幾個特點(diǎn),首先,它具備極高的效率,9小時的視頻在單卡節(jié)點(diǎn)分析耗時僅10分鐘,相比較人工篩查的方式節(jié)約了90%的時間。同時,它具備非常高的重識別準(zhǔn)確性,相比較傳統(tǒng)的基于全監(jiān)督學(xué)習(xí)最好的ReID模型,我們的域泛化模型可提升約38%的準(zhǔn)確率。在新冠流調(diào)數(shù)據(jù)集上實(shí)現(xiàn)了90%以上的重識別準(zhǔn)確率。最后,邊緣數(shù)據(jù)收集邊緣處理和多邊交互的特性使其具有更好的數(shù)據(jù)隱私保護(hù)能力。
另外一個是基于Sedna的終身學(xué)習(xí)特性實(shí)現(xiàn)多聯(lián)機(jī)空調(diào)舒適度預(yù)測。概括來說,要解決的問題是,根據(jù)多聯(lián)機(jī)空調(diào)系統(tǒng)的設(shè)定參數(shù),溫濕度和所處地區(qū)等環(huán)境特征。預(yù)測人體舒適程度,預(yù)測結(jié)果比如過冷、舒適或過熱)然后基于這個預(yù)測結(jié)果進(jìn)而給出符合舒適度約束下的最佳節(jié)能空調(diào)設(shè)定。
當(dāng)前市場上智慧樓宇、空調(diào)群控系統(tǒng)及相關(guān)硬件設(shè)備天然位于邊緣。新園區(qū)系統(tǒng)啟用需冷啟動能力實(shí)現(xiàn)快速交付個性化空調(diào)控制,實(shí)現(xiàn)一樓一策略甚至一房一策略。期望目標(biāo)是邊緣AI模型能根據(jù)季節(jié)變換持續(xù)迭代園區(qū)設(shè)備智能服務(wù),并實(shí)現(xiàn)離線自治。
這個場景的技術(shù)挑戰(zhàn)主要包括小樣本問題:如傳感器覆蓋不全、出現(xiàn)數(shù)據(jù)丟失,采樣規(guī)模小。還有數(shù)據(jù)異構(gòu)問題:不同城市中特征分布差異大、單一模型性能波動可能會很大。
目前Sedna的方案是基于多個歷史任務(wù)在云端對知識庫建模,并以此為初始化。然后,基于云端知識庫進(jìn)而對邊側(cè)數(shù)據(jù)和任務(wù)進(jìn)行學(xué)習(xí),再反饋給云端知識庫并更新,這樣形成了一個循環(huán)鏈路,我們重復(fù)這個過程將獲得更健壯的知識庫,用來處理未來的邊側(cè)任務(wù)。
基于以上的方案,實(shí)現(xiàn)了精度,抗遺忘能力以及未來任務(wù)處理能力的全面大幅提升。
另外,SIG AI當(dāng)前也發(fā)布了業(yè)界首個分布式協(xié)同AI基準(zhǔn)測試套件 -- Ianvs(讀音:雅努斯),這個套件將面向分布式協(xié)同AI的開發(fā)者,通過提供數(shù)據(jù)集和配套算法測試用例、仿真工具、排行榜等幫助開發(fā)者更高效地進(jìn)行分布式協(xié)同AI解決方案的研發(fā)。
03 KubeEdge SIG AI 規(guī)劃
社區(qū)經(jīng)過積極的討論,認(rèn)為下一步的規(guī)劃應(yīng)該重點(diǎn)在三個方向。首先,還是專注邊云協(xié)同AI框架Sedna的發(fā)展,完善以及積極開發(fā)新的特性,擴(kuò)大在社區(qū)的影響力。
同時,重點(diǎn)推出協(xié)同測試框架 Ianvs ( 雅努斯 ),它關(guān)注我們的合作伙伴應(yīng)用上的痛點(diǎn)問題,如邊緣AI關(guān)鍵特性的全面基準(zhǔn)規(guī)格,邊緣AI典型場景的測試用例;邊緣AI端到端測試床。
當(dāng)然,以上兩個部分成功的必要條件是能夠打造一個蓬勃的生態(tài)和社區(qū),我們將更加積極的發(fā)展合作伙伴,不論是技術(shù)特性層面還是應(yīng)用開發(fā)。我們除了基礎(chǔ)設(shè)施的合作伙伴如深度學(xué)習(xí)框架,聯(lián)邦學(xué)習(xí)研究團(tuán)隊,也非常歡迎更多業(yè)界的伙伴們積極合作,用Edge AI技術(shù)幫助解決業(yè)務(wù)中的難題。

不論是從技術(shù)層面,還是從應(yīng)用開發(fā)層面,除了基礎(chǔ)設(shè)施合作伙伴,比如像深度學(xué)習(xí)框架,我們支持后端框架,還有包括聯(lián)邦學(xué)習(xí)研究團(tuán)隊,我們支持的聯(lián)邦學(xué)習(xí)的庫,也非常歡迎更多的業(yè)界伙伴,根據(jù)業(yè)務(wù)需求,提出自己的場景。我們也非常希望期待你來加入我們的社區(qū),來進(jìn)行積極合作,讓用我們用EdgeAI的技術(shù)和相應(yīng)的框架來幫助解決你業(yè)務(wù)當(dāng)中的難題。
關(guān)于具體項(xiàng)目的規(guī)劃和路標(biāo),我們從兩個方面介紹。一個是Ianvs,下面這是它的底座Sedna,他們兩個用另一種協(xié)同的方式來進(jìn)行規(guī)劃。詳細(xì)特性的內(nèi)容可以見下圖。

這是未來的半年到一年的這個時間維度上,SIG AI的項(xiàng)目路標(biāo)。歡迎大家積極的關(guān)注,更加歡迎大家能夠加入我們的社區(qū),一起加入到KubeEdge這個大的家庭,我們一起來推動Edge AI領(lǐng)域的發(fā)展。
附:KubeEdge社區(qū)貢獻(xiàn)和技術(shù)交流地址
1.KubeEdge網(wǎng)站 : https://kubeedge.io
2.GitHub地址 : https://github.com/kubeedge/kubeedge
3.Slack地址 :https://kubeedge.slack.com
4.郵件列表 : https://groups.google.com/forum/#!forum/kubeedge
5.每周社區(qū)例會 :https://zoom.us/j/4167237304
6.Twitter : https://twitter.com/KubeEdge
7.文檔地址 : https://docs.kubeedge.io/en/latest/