導讀:當前物聯(lián)網(wǎng)進展中,從技術發(fā)展趨勢呈現(xiàn)出智能化的特征,從管理應用發(fā)展趨勢呈現(xiàn)標準化的特征。伴隨著物聯(lián)網(wǎng)的應用場景的拓展,會對企業(yè)的自動化、信息化進程產(chǎn)生重要的影響。在物聯(lián)網(wǎng)的應用必然會產(chǎn)生海量數(shù)據(jù),那么我們該如何有效的處理這些海量數(shù)據(jù)呢?
物聯(lián)網(wǎng),即“萬物相連的互聯(lián)網(wǎng)”,是互聯(lián)網(wǎng)基礎上的延伸和擴展的網(wǎng)絡,將各種信息傳感設備與互聯(lián)網(wǎng)結(jié)合起來而形成的一個巨大網(wǎng)絡,實現(xiàn)在任何時間、任何地點,人、機、物的互聯(lián)互通。
當前物聯(lián)網(wǎng)進展中,從技術發(fā)展趨勢呈現(xiàn)出智能化的特征,從管理應用發(fā)展趨勢呈現(xiàn)標準化的特征。伴隨著物聯(lián)網(wǎng)的應用場景的拓展,會對企業(yè)的自動化、信息化進程產(chǎn)生重要的影響。在物聯(lián)網(wǎng)的應用必然會產(chǎn)生海量數(shù)據(jù),那么我們該如何有效的處理這些海量數(shù)據(jù)呢?
什么是數(shù)據(jù)處理?
為了理解物聯(lián)網(wǎng)傳感器收集的大量數(shù)據(jù),我們需要對其進行處理。換句話說,數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸,目的是將原始數(shù)據(jù)轉(zhuǎn)換為有用的信息。其中,數(shù)據(jù)是數(shù)字、符號、字母和各種文字的集合。數(shù)據(jù)處理的輸出的是信息,并能以不同的形式呈現(xiàn),例如純文本文件、圖表、電子表格或圖像。
數(shù)據(jù)處理過程通常遵循一個由三個基本階段組成的循環(huán):輸入、處理和輸出。
輸入:輸入是數(shù)據(jù)處理周期的第一階段,這是一個將收集到的數(shù)據(jù)轉(zhuǎn)換成機器可讀形式以便計算機處理的階段。
處理:在處理階段,計算機將原始數(shù)據(jù)轉(zhuǎn)換成信息。轉(zhuǎn)換是通過使用不同的數(shù)據(jù)操作技術來執(zhí)行的。
輸出:這是處理后的數(shù)據(jù)轉(zhuǎn)換成人類可讀形式并作為有用信息呈現(xiàn)給最終用戶的階段。
那么,數(shù)據(jù)處理是如何工作的呢?
數(shù)據(jù)處理的方法
物聯(lián)網(wǎng)的大規(guī)模應用會產(chǎn)生海量的數(shù)據(jù),為了減輕系統(tǒng)的負荷,可以對數(shù)據(jù)的分級處理和降維處理。分級處理可以有效的減輕系統(tǒng)的負荷;降維處理可以有效的壓縮數(shù)據(jù)量,是處理一些數(shù)據(jù)必須進行的步驟,并且已在大規(guī)模的圖像處理算法中得到應用。
數(shù)據(jù)的分級處理
從信息處理的角度,物聯(lián)網(wǎng)可以分為三個層次:
1.底層是局部區(qū)域的協(xié)同感知。多個同類或異類的傳感器辦同感知被測目標,獲得立體的豐富的感知數(shù)據(jù),通過局部區(qū)域的信息處理和融合,能夠獲得高精度的、可靠的感知信息;2.第二層是傳輸過程中的數(shù)據(jù)處理。包括面向無線傳輸網(wǎng)絡狀態(tài)的感知信息的進一步聚合和融合處理,自適應傳輸鏈路狀態(tài)的應用層編碼和傳送協(xié)議優(yōu)化,以及數(shù)據(jù)的安全傳輸處理,使得海量信息能夠高效的、可靠和安全的傳輸;3.第三層是應用支撐層上的基于各類物聯(lián)網(wǎng)應用的共性支撐、服務決策、協(xié)調(diào)控制等。物聯(lián)網(wǎng)的信息是超大規(guī)模的海量信息,需要利用感知信息具有的時間和空間的關聯(lián)特性,實現(xiàn)不同空間區(qū)域上的多粒度的分級存儲和檢索,提高資源利用率和信息獲取效率。提出一種基于多級數(shù)據(jù)處理的嵌人式中間件系統(tǒng)的解決方案,系統(tǒng)集合了數(shù)據(jù)過濾、數(shù)據(jù)聚合和數(shù)據(jù)處理等功能,可在一定程度上提高大型應用系統(tǒng)的整體效率。
數(shù)據(jù)的降維處理
隨著信息技術的發(fā)展,特別是物聯(lián)網(wǎng)技術的應用,人們將會不分時間和地點,可以方便的獲得大量的信息,人們獲得的數(shù)據(jù)量將以指數(shù)形式快速增長。這些數(shù)據(jù)具有快速更新、數(shù)據(jù)維數(shù)更高、非結(jié)構(gòu)化等特點。
目前人們對這些數(shù)據(jù)的處理還沒有形成相應的有效方法,傳統(tǒng)的數(shù)據(jù)分析方法在處理這些數(shù)據(jù)集合時,往往效果并不好,甚至在某些情況下失效。蘊含在數(shù)據(jù)中的知識和規(guī)律我們無法得知,將會導致數(shù)據(jù)災難問題。因此,人們就迫切希望去認識和探索這些數(shù)據(jù)之間的奧秘。而如何能有效的利用這些高維數(shù)據(jù)是人們面臨的基本問題。
在很多情況下,我們可以首先將數(shù)據(jù)的維數(shù)將到一個合理的大小,同時盡可能多的保留原始的信息,然后再將降維處理后的數(shù)據(jù)送入信息處理系統(tǒng)。這樣的做法是非常有用的。而降維算法也是一些機器學習、數(shù)據(jù)挖掘方法的組成部分。對數(shù)據(jù)降維處理,結(jié)合一些具體的業(yè)務需求,是一個行之有效對海量數(shù)據(jù)進行處理的方法。
降維算法主要分為線性降維算法和非線性降維算法。降維的實質(zhì)就是尋找投影變換:從高維空間到低維空間變換?,F(xiàn)在有一種最小量嵌入算法,在保持局部等距和角度不變的約束條件下,就能很好的揭示數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)。
數(shù)據(jù)處理的注意事項
既然我們已經(jīng)知道了數(shù)據(jù)的分級和降維處理,那么在物聯(lián)網(wǎng)中涉及到這些問題時,有注意事項需要我們了解:
期望的輸出
即使數(shù)據(jù)處理周期從輸入階段開始,我們也應該首先考慮想要的輸出。換句話說,我們對什么樣的信息感興趣?一個示例是,在機器的溫度超過閾值時接收警報。
數(shù)據(jù)的存儲
一旦我們弄清楚想要的輸出是什么,我們就必須找到一種方法來獲得它。傳感器收集的數(shù)據(jù)必須以適當?shù)男问酱鎯?,以便將其轉(zhuǎn)換為我們正在尋找的信息。
例如,當機器運行時,我們可以定期(例如每10分鐘)接收數(shù)據(jù)。我們可能希望利用這些數(shù)據(jù)來計算自上次維護以來機器已經(jīng)運行了多少小時。我們還可以檢測這些數(shù)據(jù)中的趨勢,并對何時達到特定的小時數(shù)進行預估(如果使用量保持在相同的水平)。
由于傳感器收集的數(shù)據(jù)量可能很大,我們應該購買可擴展的云服務來存儲數(shù)據(jù)。此外,我們還應該制定一個數(shù)據(jù)保留政策,以便定時清理不必要的數(shù)據(jù)。我們擁有的數(shù)據(jù)越多,保存的時間越長,存儲數(shù)據(jù)的成本就越高。另一方面,更少的數(shù)據(jù)意味著更少的見解和歷史參考。因此,我們必須在成本和想要存儲的數(shù)據(jù)量之間進行優(yōu)先級排序和平衡。
更新頻率
在執(zhí)行數(shù)據(jù)處理之前,重要的是要確定更新頻率和資源消耗(如計算能力、功率)之間的良性平衡?!傲夹云胶狻蓖耆Q于物聯(lián)網(wǎng)用例。
在某些用例中,必須立即知道收集的數(shù)據(jù)是如何影響輸出的,然而,這需要實時的數(shù)據(jù)處理,這可能非常消耗資源。在其他一些用例中,收集到的數(shù)據(jù),每天處理一次就足夠了。
小結(jié)
在物聯(lián)網(wǎng)數(shù)據(jù)處理方面,我們正處于一個充滿挑戰(zhàn)的時刻,這個時刻充滿了機遇,也充滿了風險。通過收集、處理和分析物聯(lián)網(wǎng)數(shù)據(jù),消費者和組織可以獲得有價值的見解,幫助他們成長并對未來做出更好的決策。