華為云計算 云知識 解析:物聯(lián)網(wǎng)數(shù)據(jù)分析服務如何做?
解析:物聯(lián)網(wǎng)數(shù)據(jù)分析服務如何做?

【摘要】 物聯(lián)網(wǎng)設備正在產(chǎn)生大量的數(shù)據(jù),如何為開發(fā)者提供簡單有效的數(shù)據(jù)分析服務,簡化開發(fā)過程,提升開發(fā)效率,讓IoT數(shù)據(jù)快速變現(xiàn)是一個擺在我們面前的問題。

我們需要怎樣的物聯(lián)網(wǎng)數(shù)據(jù)分析服務(一)

沒有疑問,我們已經(jīng)身處物聯(lián)網(wǎng)時代了,每天都有數(shù)不清的各類物聯(lián)網(wǎng)設備被連接起來,讓我們可以以前所未有的視角重新觀察和感知我們所處的這個物理世界。這個背后當然涉及到物聯(lián)網(wǎng)技術的各個環(huán)節(jié),比如如何將設備快速安全可靠的接入云端,如何管理這些設備,如何對源源不斷采集到的數(shù)據(jù)進行合適的處理等等。而這篇博客我主要想分享下個人認為物聯(lián)網(wǎng)的數(shù)據(jù)分析可能應該是什么樣的。

我把物聯(lián)網(wǎng)數(shù)據(jù)的特點和挑戰(zhàn)歸納如下。我覺得最主要的4個特點是“大”,“小”,“高”,“低”。

”即物聯(lián)網(wǎng)數(shù)據(jù)體量大,我們經(jīng)常聽到的一個經(jīng)典的案例即GE發(fā)動機有成百上千個傳感器,毫秒級頻度產(chǎn)生各種數(shù)據(jù)。飛機的一次飛行就可以超過1TB的數(shù)據(jù)量。而在很多工業(yè)場景下產(chǎn)生的數(shù)據(jù)量可能會更大。

”即物聯(lián)網(wǎng)數(shù)據(jù)的價值密度小,或者也可以理解為要從海量的數(shù)據(jù)中找到價值的信息是一個比較難的事情。

”即物聯(lián)網(wǎng)數(shù)據(jù)時效性高,設備產(chǎn)生的數(shù)據(jù)流往往需要及時分析處理,隨著時間的流逝,其價值會迅速降低。

”即物聯(lián)網(wǎng)數(shù)據(jù)的質(zhì)量通常較低,原因是多方面的,可能跟IoT設備自身能力有關,也可能是較苛刻的設備部署環(huán)境,也可能是網(wǎng)絡傳輸問題等等,最終造成物聯(lián)網(wǎng)數(shù)據(jù)容易出現(xiàn)丟失,異常,重復等問題。

                                               

  面對這些特點,造成了幾個挑戰(zhàn):

  1. 怎樣盡可能的降低存儲的成本,企業(yè)可能通常有要求存儲好幾年數(shù)據(jù)的述求,而IoT數(shù)據(jù)體量大,幾年的存儲量很可能是一個天文數(shù)字。那么如何能找到盡可能的低成本存儲解決方案就是一個不能忽視的問題。
  2. 怎樣從價值密度低的物聯(lián)網(wǎng)數(shù)據(jù)中充分挖掘和發(fā)現(xiàn)數(shù)據(jù)背后的價值,該采取怎樣的有效分析方法?
  3. 提升數(shù)據(jù)處理的時效性,在數(shù)據(jù)處理的各個環(huán)節(jié)都盡可能高效運轉(zhuǎn),比如數(shù)據(jù)接入,數(shù)據(jù)清洗,數(shù)據(jù)入庫等。
  4. 數(shù)據(jù)質(zhì)量的評估和處理。如何判斷質(zhì)量的優(yōu)劣,并且采取合適的方法改善數(shù)據(jù)質(zhì)量?

   

要很好應對這些物聯(lián)網(wǎng)數(shù)據(jù)分析的挑戰(zhàn),對于IoT數(shù)據(jù)應用開發(fā)者來說可能是有一定技術門檻的, 如果不是一個對公有云琳瑯滿目的相關 大數(shù)據(jù) PaaS非常了解的開發(fā)者,很可能花了較長時間,而最終開發(fā)的解決方案較難滿足業(yè)務的要求。這里面的原因除了開發(fā)者需要花比較大的學習成本掌握相關服務的特性外,還有一個根本原因是那些通用的大數(shù)據(jù)產(chǎn)品并未是專門針對IoT數(shù)據(jù)分析所提供的。

如何才能做好一個針對物聯(lián)網(wǎng)場景的數(shù)據(jù)分析服務呢?個人覺得有如下幾個要點:

  1. 構建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)的基礎

模型.png將IoT設備產(chǎn)生的數(shù)據(jù)有效組織起來,并按照業(yè)務所需構建模型,將是物聯(lián)網(wǎng)數(shù)據(jù)分析中的重要一環(huán),特別是復雜的場景更是如此。

  1. 物聯(lián)網(wǎng)數(shù)據(jù)處理的關鍵是對時序數(shù)據(jù)的處理時序.png
  2. 按數(shù)據(jù)時效性分層處理,獲得綜合處理效率最大化分層.png
  3. 針對物聯(lián)網(wǎng)數(shù)據(jù)要有數(shù)據(jù)清洗的必要手段。傳統(tǒng)的ETL工具主要是針對結構化數(shù)據(jù)的處理,而物聯(lián)網(wǎng)數(shù)據(jù)主要是非結構化或半結構化的數(shù)據(jù),并且對清洗的實時性要求一般較高。

清洗.png因此需要找到適合物聯(lián)網(wǎng)領域使用的數(shù)據(jù)清洗手段,我們理解該能力需要充分理解物的數(shù)據(jù)結構,即物模型,并且需要實時的清洗能力。