物聯網數據管理研究論文
物聯網可實現物與物、人與物的智能交互,而物聯網的廣泛應用則要依賴有效的數據管理。物聯網是在互聯網基礎上的延伸和擴展的網絡。下面是學習啦小編給大家推薦的物聯網數據管理研究論文,希望大家喜歡!
物聯網數據管理研究論文篇一
《物聯網數據管理研究》
摘 要:物聯網可實現物與物、人與物的智能交互,而物聯網的廣泛應用則要依賴有效的數據管理。文中針對物聯網中數據的特點、組成和數據的流轉過程,分析了物聯網數據管理所面臨的問題,并在對現有數據管理技術進行研究的基礎上,提出了物聯網環(huán)境下基于云計算平臺的數據管理框架,同時指出了在此框架下應完成的功能和實現思路。
關鍵詞:物聯網;數據管理;數據模型;數據存儲;云計算
中圖法分類號:TP393 文獻標識碼:A 文章編號:2095-1302(2014)04-0079-04
0 引 言
物聯網(Internet of Things,IoT)是通過射頻識別(RFID)、無線傳感器、全球定位系統(tǒng)、激光掃描器等信息傳感設備,按約定的協議,把任何物品與互聯網連接起來,進行信息交換和通訊,以實現智能化識別、定位、跟蹤、監(jiān)控和管理的一種網絡[1],被稱為繼計算機、互聯網之后世界信息產業(yè)的第三次浪潮。物聯網是由多項信息技術融合而成的新型技術體系,目前多個國家都在花巨資進行深入研究,主要集中在射頻識別RFID技術、無線傳感技術、納米技術、嵌入技術、云計算和IPV6等。
物聯網是在互聯網基礎上的延伸和擴展的網絡,它將終端延伸和擴展到了任何物品與物品之間。計算機和互聯網的出現創(chuàng)造了大量數據,物聯網創(chuàng)造出的數據將遠多于互聯網,物聯網包含了數以億級的節(jié)點,代表各種對象,從小型的無處不在的傳感器設備、手持設備到大型網絡服務器和超級計算機集群,數據每時每刻都在大量產生,且形式多樣,如結構化數據、半結構化數據、流數據和多維數據等,有對決策貢獻大的數據,也有幫助較小的數據,還有噪聲數據,各種數據性質不同,處理的方式、存儲的手段以及在此之上的信息提取方法各不相同,這些數據在不同的系統(tǒng)或場合中被使用、重用或引用,比如數據的查詢、分析等。對如此海量數據的有效處理、存儲和管理是物聯網得以廣泛應用的關鍵所在。而現有國內外對物聯網的研究多集中在體系結構、RFID、傳感網絡和標準化以及物聯網中間件[2-5]等,對數據方面的研究比較少,Keith G.Jeffery等指出傳統(tǒng)數據庫不適于管理物聯網數據[6],Anne James等指出了物聯網數據庫結構的研究方向[7]。鑒于此,本文在分析物聯網數據特點的和現有數據管理技術的基礎上,從數據模型、數據預處理與集成、存儲與索引和查詢分析等幾個方面對物聯網數據進行了有益的探索。
1 物聯網數據分析
1.1 物聯網數據的特點
物聯網涉及領域多,遍及智能交通、環(huán)境保護、政府工作、公共安全、平安家居、智能消防、工業(yè)監(jiān)測、環(huán)境監(jiān)測、老人護理、個人健康、花卉栽培、水系監(jiān)測、食品溯源、敵情偵查和情報搜集等多個領域,每個領域都有各自不同的特點,同時領域之間還有合作。因此物聯網中數據具有如下特點:
(1)海量;
(2)共享;
(3)類型多樣,包含著關系型數據、半結構化數據、流數據和多維數據和無結構的文檔等;
(4)數據有噪聲、不一致、不確定,由于采集的數據的準確度受儀器的精度制約,同時在網絡傳輸過程(特別是無線網絡傳輸)中,數據的準確性受到帶寬、傳輸延時、能量等因素影響,而在傳感器網絡應用與RFID應用中,周圍環(huán)境也會影響原始數據的準確度。
1.2 物聯網數據的組成
物聯網中數據有離散的,有連續(xù)的,其中既有已存在的輸入數據源,也有在對數據進行分析和處理的過程中產生的中間數據和最終結果數據,但大體上可以分為如下幾類[8]:
(1)RFID標簽數據:射頻標識是利用無線電波來對物品進行識別和追蹤的的常用技術,在標簽里面存儲著物品的編碼,如EPCGlobal的EPCCode,此類數據多以比較簡單的元組形式出現(OID,RID,T),表示某個時刻某個閱讀器讀到標簽數據。
(2)地址/唯一名稱數據:物聯網中用來標識一個物體的有可能是IP地址,如IPv4和IPv6,還有可能使用類似于DNS的層次命名結構如EPCGlobal的ONS。在底層,有的物品還可能采用簡單的唯一標識符的方式,比如UUIDs(Universally Unique Identifiers )和GUIDs (Globally Unique Identifiers)。
(3)描述性數據:物聯網中的大部分數據來源于此,是描述物品的基本信息、狀態(tài)過程信息和體系信息的數據或者元數據,只有知道這些數據才能最大限度的使用物聯網提供的服務和便利。
(4)位置和環(huán)境數據:這些數據有的來自GPS,有的來自本地定位系統(tǒng),如蜂窩基站、Wi-Fi訪問點和電視塔。
(5)傳感器數據:這是數據進入物聯網的渠道之一,通過組建無線傳感網絡用來監(jiān)測氣候、溫度、濕度等,是一些多維的時間序列數據。
(6)歷史數據:對這些數據的訪問頻率不同,必須對數據分類,制定相應保存數據和數據歸檔的策略。
(7)物理模型:為了提升物聯網的功能,要包含一些常用的物理模型比如力學的、光學的、聲學的,電磁學的,以便于對物理場景的建模和仿真。
(8)設備的狀態(tài)和命令數據:物聯網可用于遙控設備,所以物聯網記錄了大量的命令數據以及設備的實時反饋信息,以便于將來的追蹤和分析。
1.3 數據流轉過程
物聯網中數據的流轉過程如下:
(1) 利用射頻識別、二維碼、傳感器等感知、捕獲、測量技術隨時隨地對物品進行信息采集和獲取;
(2) 將物品信息轉換為適合網絡傳輸的數據格式,如EPCGlobal采用PML文件格式傳輸數據。
(3) 將物品的信息通過網絡傳輸到信息處理中心,該中心要具有海量感知信息的計算與處理能力,采用云計算平臺實現信息存儲資源和計算能力的分布式共享,為海量信息的高效利用提供支撐。
(4) 服務和應用是物聯網的最終價值體現,各種應用通過訪問處理中心獲取物品的詳細信息。
2 物聯網數據管理
工業(yè)界和學術界雖然都把對物聯網的研究提到一個很高的程度,但是要想讓物聯網真正發(fā)揮作用,就要充分利用它的海量數據,從中發(fā)現潛在的價值。因此基于云計算平臺的信息處理中心對數據的有效管理是物聯網得以應用的關鍵。
通過上述物聯網數據分析可知,物聯網中存在著結構化數據如關系數據庫,半結構化數據如XML數據,流數據如時間序列數據,還有一些文檔、圖片、聲音、視頻等數據,而這些數據之間又可能存在著千絲萬縷的聯系,采用什么樣的數據模型來有效的進行數據的表示、操作和約束,采用什么樣的存儲和索引技術,采用什么樣的查詢分析方法是物聯網數據管理應解決的問題,同時還要解決諸如數據保護、數據隱私、數據安全性、數據歸檔等問題。
2.1 現有數據管理技術分析
現有成熟的數據管理技術是關系數據庫,用來管理結構化的數據。各種企業(yè)應用系統(tǒng)和辦公系統(tǒng)都采取這種方式,常見數據庫如SQL SERVER、ORACLE、MY SQL、DB2等,這是一種基于二維表的數據結構,數據操作基于嚴格的數據操縱語言SQL,通過保持事務的ACID特性、加鎖機制、時間戳、兩階段鎖協議和并發(fā)控制等來保證數據的一致性和相容性。關系數據庫是一種模式優(yōu)先的管理方式,也就是說數據間的聯系是經過需求分析已經確定好了的,而且數據類型和長度也是在數據庫中預先定義好的。關系數據庫中數據源比較單一,就是一系列的二維表,而且在整個數據管理過程中關系模式變動很少。雖然隨著數據量的增大和數據異地存儲的需要,又出現了分布式數據庫。但是其核心還是關系型的。
而物聯網中的數據源形式多樣,沒有統(tǒng)一的模式,數據存在著千絲萬縷的聯系,且聯系是松散的、滯后的,而人們使用數據多以服務的形式來調用,而事務的ACID特性不適用于Web事務處理,因為單個的Web服務本質上來說是自治的并且只負責自身的一致性,這就會和用戶的全局事務產生沖突,例如預定一次旅游,不僅要預定酒店還要預定機票,用戶只關心預定旅游是否成功,但是預定機票和酒店是兩套獨立的系統(tǒng),很有可能其中一項不成功,所以兩階段提交過程是不可行的。所以不能采用傳統(tǒng)的關系數據庫技術來管理物聯網數據。
XML是管理半結構化數據的常用技術,具有自描述性,是針對異構數據的交換提出的,常用來實現模式滯后的數據集成。XML采用層次性的數據模型,通過XQuery進行數據查詢。但是它多用于描述數據,如關于數據的數據-元數據就是一個很好的例子,而且XML采用樹狀結構在操作實現方面也不足,重要的是不能處理語義信息。
面對數據管理呈現的特點:海量、共享、多樣性、不確定。工業(yè)界和學術界進行了新的嘗試。
在云計算的數據管理技術中最著名的是谷歌提出的BigTable[8],這是一種為了管理結構化數據而設計的分布式存儲系統(tǒng),這些數據可以擴展到非常大的規(guī)模,例如在數千臺商用服務器上的達到PB ( Petabytes)規(guī)模的數據,通過采用列存儲和用三級的層次化的方式來存儲位置信息以提高存取效率和獲得高擴展性。這種數據管理技術雖然已經投入使用,但是對類似數據庫中的Join操作效率太低,表內數據需要切分存儲,數據類型限定為string類型過于簡單。
數據管理面臨的挑戰(zhàn)又產生了一種新的數據管理技術-數據空間。數據空間[9]是一種從數據到模式的管理方式,它不依賴嚴格的數據模式,數據模式可以是松散的、滯后的,數據模式是在數據的基礎上,根據主體需求逐步演化出來的。它由主體、數據集和服務構成,其中主體是數據空間的擁有者,數據集是與主體相關的所有可控數據的集合,它包含對象以及對象間的聯系,數據集隨著時間的推移和業(yè)務的擴展越來越大,主體通過服務對數據空間進行管理,例如數據分類、查詢、更新、索引等。但是對于數據空間的研究還處在起步階段,實現的原型系統(tǒng)還是圍繞個人數據空間管理如文件系統(tǒng)和桌面搜索。
2.2 物聯網數據管理框架
基于上述物聯網數據的分析,結合現有數據管理技術,本文提出一個基于云計算平臺的物聯網數據管理框架,然后從數據模型、數據預處理與集成、數據查詢、存儲索引等幾個方面,對物聯網數據管理的相
關技術進行了研究,提出了如圖1所示的物聯網數據管理框架。該框架主要包括數據預處理與集成、分布式的數據中心,其中數據中心要解決數據模型、數據存儲與索引、查詢分析處理等問題。
圖1 物聯網數據管理框架
2.3 數據預處理與集成
這是物聯網數據管理應用不可缺少的組成部分。它包含3方面的內容:
(1)數據清洗,這是物聯網數據管理需要考慮的重要問題,要對不準確、不精確的數據進行數據清洗、轉換等處理,包括處理缺失值,刪除重復數據等,同時要考慮物聯網數據采集的特殊性,如采用基于對監(jiān)控對象動態(tài)聚簇建模和高效的關聯度維護來估算真實的小組,在此基礎上進行有效的清洗[7];
(2)將準確數據轉化為不精確的數據或者將細粒度數據轉換為粗粒度數據,從而達到安全和隱私保護等特殊目的,如采用(k,δ)-匿名模型[8];
(3)針對物聯網多類型的數據源,對不同的數據格式采用不同的數據抽取技術,從特定數據項中抽取特征信息按照物聯網數據模型要求進行形式化表示,并通過模式匹配確定數據對象在數據中心中是否已經存在,以便決定下一步工作,從而完成數據集成工作。
面向服務(SOA)是最近發(fā)展起來的一種架構模型,它具有較高的可靠性和自恢復能力。它的數據交換基于XML,目前Web Service是實現SOA的最佳途徑,以服務的形式向外界提供靈活多樣的功能。通過服務描述語言(WSDL),提供對服務接口的抽象描述,通過建立在SOAP規(guī)范基礎上的消息傳遞機制實現服務間或服務與應用間的信息傳遞。
物聯網的支撐設備包括高性能計算平臺、海量存儲以及管理系統(tǒng)及數據庫等,數據預處理與集成可采用面向服務的架構,通過自行創(chuàng)建一組高內聚低耦合的服務或者調用云計算平臺提供的服務來完成特定的功能。面向服務架構以及云計算基礎設施,必定促進物聯網數據的集成。
2.4 數據模型
定義與場景相匹配的模型是數據管理的首要任務,數據模型包括數據結構、數據操作和數據約束,是數據管理技術的基礎和核心,它應該能夠概括物聯網數據的特點,提供高效的數據服務。
物聯網數據存在著不確定性,可能世界(Possible World)模型是描述不確定性數據的通用模型,該模型包含若干個可能世界實例,所有可能世界實例的發(fā)生概率之和等于1。針對于具體的應用發(fā)展出了各種相應的模型,如針對關系型數據、半結構化數據、流數據和多維數據的模型。物聯網中存在著類型多樣的數據,不可能用統(tǒng)一的模型來表,只能分而治之,將不同類型的數據源作為可能實例,然后再進行綜合。物聯網實現了人與人、人與物、物與物之間的互聯,以人與物為主體,每個主體有自己的基本信息如標識、組成、位置、遙感數據等,還有與主體相關的過程處理等信息,主體與主體之間還存在著聯系,可以把這些信息建立起一系列資源視圖,形成以主體為節(jié)點,以主體間聯系為邊的圖,從而實現對各種數據類型的數據源(如文檔、關系數據庫、XML文檔、數據流等)的統(tǒng)一表示,當對物聯網數據發(fā)出請求時,轉化為對每種類型數據的操作和約束。
2.5 數據存儲與索引
有效的存儲和索引技術能夠大幅提高數據管理效率。數據中心不僅要存儲內容數據還要存儲元數據信息。根據物聯網數據的特點,采用分布式的方式來存儲數據,主要還是采用現有的數據存儲技術,比如關系數據庫、概要數據結構、文檔樹等,不同類型的數據存儲在不同的地方,關鍵是如何獲得這些位置信息??梢圆捎梅謱咏Y構,第一級為根,包含所有存儲元數據的位置信息,第二級為元數據層,每個元數據單元包含著用戶數據的位置信息。第三層是具體的用戶數據。數據分布時,要全面考慮數據傳輸次數、數據量大小、數據間依賴關系以及數據中心間網絡帶寬等因素。同時為了提高數據的可靠性,要用冗余的方式來存儲數據,即為同一份數據存儲多個副本,同時要保持數據的同步性。
2.6 查詢分析處理
查詢分析處理是數據管理的最終目標,也是物聯網價值的最終體現。查詢分析不僅僅基于關鍵字的查詢和數據模式的結構化查詢,要能通過數據世系、聯機分析處理、數據挖掘等達到應用的目地。世系是數據管理的重要內容,可用于追蹤不同數據源間和同一數據源內部數據的產生和演化過程,物聯網數據的冗余性、不一致性可非常嚴重,追蹤數據的世系可以用來考察數據質量的評價、數據核查以及數據引用等。聯機分析處理和數據挖掘一直是近些年的研究熱點,針對關系數據庫和數據倉庫的分析和挖掘已經取得了很大進展,有一定的借鑒性,但是在實施分析處理和數據挖掘時要充分考慮數據的特點以及具體的應用。
3 結 語
目前在國內外物聯網的研究和開發(fā)都是熱點,各個國家都將物聯網作為戰(zhàn)略性的產業(yè)予以重點關注和推進。只有將物聯網的數據有效地管理起來,才能真正發(fā)揮它的作用。本文闡述了物聯網數據的特點和組成,分析了物聯網數據管理面臨的問題,提出了物聯網數據管理框架。但是物聯網數據管理還面臨著重大的挑戰(zhàn)。雖然物聯網數據模型可以采用可能世界模型,但是可能世界實例呈指數增長,遍歷所有可能世界實例需要耗費不可估量的時空開銷;另外物聯網數據的存儲和處理雖然可借助于云平臺,在云基礎架構中,物理資源共享也帶來了新的數據安全和隱私危機;數據世系研究雖然取得了很大進展,但是針對物聯網數據的海量性和不確定性使世系關系更復雜。
參考文獻
[1] FUNK Mathias, VAN DER PUTTEN Piet, CORPORAAL Henk. Analytics for the Internet of Things [C]// Proceedings of the 27th International Conference on Human Factors in Computing Systems. Boston, MA, USA: [s.n.], 2009: 340-369.
[2]沈蘇彬,范曲立,宗平,等.物聯網的體系結構與相關技術研究[J].南京郵電大學學報:自然科學版,2009 (6):3-13.
[3]王曉靜,張晉.物聯網研究綜述[J].遼寧大學學報:自然科學版,2010 (1):42-44.
[4]孫其博,劉杰,黎羴,等. 物聯網:概念、架構與關鍵技術研究綜述[J].北京郵電大學學報:自然科學版,2010(3):5-13.
[5]劉強,崔莉,陳海明.物聯網關鍵技術與應用[J].計算機科學,2010 (6):1-5.
[6] JEFFERY K G. The Internet of Things: the death of traditional database? [J]. IETE Technical Review, 2009, 26(5): 313-319.
[7]谷峪,于戈,胡小龍,等.基于監(jiān)控對象動態(tài)聚簇的高效 RFID 數據清洗模型[J].軟件學報,2010(4):64?75.
[8] CHANG F, DEAN J, GHEMAWAT S, et al. Big table: a distributed storage system for structured data [J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-26.
[9]李玉坤,孟小峰,張相於. 數據空間技術研究[J].軟件學報,2008 (8):158-171.
點擊下頁還有更多>>>物聯網數據管理研究論文