有關(guān)大數(shù)據(jù)的計算機信息處理論文
有關(guān)大數(shù)據(jù)的計算機信息處理論文
計算機在進行數(shù)據(jù)處理之前,首先需要進行數(shù)據(jù)收集,當(dāng)收集到有效的數(shù)據(jù)之后,才能對這些收集而來的大量數(shù)據(jù)進行各種操作。下面是學(xué)習(xí)啦小編給大家推薦的有關(guān)大數(shù)據(jù)的計算機信息處理論文,希望大家喜歡!
有關(guān)大數(shù)據(jù)的計算機信息處理論文篇一
《計算機軟件技術(shù)在大數(shù)據(jù)時代的應(yīng)用》
摘要:大數(shù)據(jù)的爆炸式增長在大容量、多樣性和高增速方面,全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力;同時,也為企業(yè)帶來了獲取更豐富、更深入和更準確地洞察市場行為的大量機會。對企業(yè)而言,能夠從大數(shù)據(jù)中獲得全新價值的消息是令人振奮的。然而,如何從大數(shù)據(jù)中發(fā)掘出“真金白銀”則是一個現(xiàn)實的挑戰(zhàn)。這就要求采用一套全新的、對企業(yè)決策具有深遠影響的解決方案。
關(guān)鍵詞:計算機 大數(shù)據(jù)時代 容量 準確 價值 影響 方案
1 概述
自從計算機出現(xiàn)以后,傳統(tǒng)的計算工作已經(jīng)逐步被淘汰出去,為了在新的競爭與挑戰(zhàn)中取得勝利,許多網(wǎng)絡(luò)公司開始致力于數(shù)據(jù)存儲與數(shù)據(jù)庫的研究,為互聯(lián)網(wǎng)用戶提供各種服務(wù)。隨著云時代的來臨,大數(shù)據(jù)已經(jīng)開始被人們廣泛關(guān)注。一般來講,大數(shù)據(jù)指的是這樣的一種現(xiàn)象:互聯(lián)網(wǎng)在不斷運營過程中逐步壯大,產(chǎn)生的數(shù)據(jù)越來越多,甚至已經(jīng)達到了10億T。大數(shù)據(jù)時代的到來給計算機信息處理技術(shù)帶來了更多的機遇和挑戰(zhàn),隨著科技的發(fā)展,計算機信息處理技術(shù)一定會越來越完善,為我們提供更大的方便。
大數(shù)據(jù)是IT行業(yè)在云計算和物聯(lián)網(wǎng)之后的又一次技術(shù)變革,在企業(yè)的管理、國家的治理和人們的生活方式等領(lǐng)域都造成了巨大的影響。大數(shù)據(jù)將網(wǎng)民與消費的界限和企業(yè)之間的界限變得模糊,在這里,數(shù)據(jù)才是最核心的資產(chǎn),對于企業(yè)的運營模式、組織結(jié)構(gòu)以及文化塑造中起著很大的作用。所有的企業(yè)在大數(shù)據(jù)時代都將面對戰(zhàn)略、組織、文化、公共關(guān)系和人才培養(yǎng)等許多方面的挑戰(zhàn),但是也會迎來很大的機遇,因為只是作為一種共享的公共網(wǎng)絡(luò)資源,其層次化和商業(yè)化不但會為其自身發(fā)展帶來新的契機,而且良好的服務(wù)品質(zhì)更會讓其充分具有獨創(chuàng)性和專用性的鮮明特點。所以,知識層次化和商業(yè)化勢必會開啟知識創(chuàng)造的嶄新時代。可見,這是一個競爭與機遇并存的時代。
2 大數(shù)據(jù)時代的數(shù)據(jù)整合應(yīng)用
自從2013年,大數(shù)據(jù)應(yīng)用帶來令人矚目的成績,不僅國內(nèi)外的產(chǎn)業(yè)界與科技界,還有各國政府部門都在積極布局、制定戰(zhàn)略規(guī)劃。更多的機構(gòu)和企業(yè)都準備好了迎接大數(shù)據(jù)時代的到來,大數(shù)據(jù)的內(nèi)涵應(yīng)是數(shù)據(jù)的資產(chǎn)化和服務(wù)化,而挖掘數(shù)據(jù)的內(nèi)在價值是研究大數(shù)據(jù)技術(shù)的最終目標。在應(yīng)用數(shù)據(jù)快速增長的背景下,為了降低成本獲得更好的能效,越來越趨向?qū)S没南到y(tǒng)架構(gòu)和數(shù)據(jù)處理技術(shù)逐漸擺脫傳統(tǒng)的通用技術(shù)體系。如何解決“通用”和“專用”體系和技術(shù)的取舍,以及如何解決數(shù)據(jù)資產(chǎn)化和價值挖掘問題。
企業(yè)數(shù)據(jù)的應(yīng)用內(nèi)容涵蓋數(shù)據(jù)獲取與清理、傳輸、存儲、計算、挖掘、展現(xiàn)、開發(fā)平臺與應(yīng)用市場等方面,覆蓋了數(shù)據(jù)生產(chǎn)的全生命周期。除了Hadoop版本2.0系統(tǒng)YARN,以及Spark等新型系統(tǒng)架構(gòu)介紹外,還將探討研究流式計算(Storm,Samza,Puma,S4等)、實時計算(Dremel,Impala,Drill)、圖計算(Pregel,Hama,Graphlab)、NoSQL、NewSQL和BigSQL等的最新進展。在大數(shù)據(jù)時代,借力計算機智能(MI)技術(shù),通過更透明、更可用的數(shù)據(jù),企業(yè)可以釋放更多蘊含在數(shù)據(jù)中的價值。實時、有效的一線質(zhì)量數(shù)據(jù)可以更好地幫助企業(yè)提高產(chǎn)品品質(zhì)、降低生產(chǎn)成本。企業(yè)領(lǐng)導(dǎo)者也可根據(jù)真實可靠的數(shù)據(jù)制訂正確戰(zhàn)略經(jīng)營決策,讓企業(yè)真正實現(xiàn)高度的計算機智能決策辦公,下面我們從通信和商業(yè)運營兩個方面進行闡述。
2.1 通信行業(yè):XO Communications通過使用IBM SPSS預(yù)測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過提供單個端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴展平臺,幫助通信企業(yè)制定更科學(xué)、合理決策。電信業(yè)者透過數(shù)以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業(yè),這是全新的資料經(jīng)濟。中國移動通過大數(shù)據(jù)分析,對企業(yè)運營的全業(yè)務(wù)進行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責(zé)人,使他在最短時間內(nèi)獲知市場行情。
2.2 商業(yè)運營:辛辛那提動物園使用了Cognos,為iPad提供了單一視圖查看管理即時訪問的游客和商務(wù)信息的服務(wù)。借此,動物園可以獲得新的收入來源和提高營收,并根據(jù)這些信息及時調(diào)整營銷政策。數(shù)據(jù)收集和分析工具能夠幫助銀行設(shè)立最佳網(wǎng)點,確定最好的網(wǎng)點位置,幫助這個銀行更好地運作業(yè)務(wù),推動業(yè)務(wù)的成長。
3 企業(yè)信息解決方案在大數(shù)據(jù)時代的應(yīng)用
企業(yè)信息管理軟件廣泛應(yīng)用于解決欺詐偵測、雇員流動、客戶獲取與維持、網(wǎng)絡(luò)銷售、市場細分、風(fēng)險分析、親和性分析、客戶滿意度、破產(chǎn)預(yù)測和投資組合分析等多樣化問題。根據(jù)大數(shù)據(jù)時代的企業(yè)挖掘的特征,提出了數(shù)據(jù)挖掘的SEMMA方法論――在SAS/EM環(huán)境中,數(shù)據(jù)挖掘過程被劃分為Sample、Explore、Modify、Model、Assess這五個階段,簡記為SEMMA:
3.1 Sample 抽取一些代表性的樣本數(shù)據(jù)集(通常為訓(xùn)練集、驗證集和測試集)。樣本容量的選擇標準為:包含足夠的重要信息,同時也要便于分析操作。該步驟涉及的處理工具為:數(shù)據(jù)導(dǎo)入、合并、粘貼、過濾以及統(tǒng)計抽樣方法。
3.2 Explore 通過考察關(guān)聯(lián)性、趨勢性以及異常值的方式來探索數(shù)據(jù),增進對于數(shù)據(jù)的認識。該步驟涉及的工具為:統(tǒng)計報告、視圖探索、變量選擇以及變量聚類等方法。
3.3 Modify 以模型選擇為目標,通過創(chuàng)建、選擇以及轉(zhuǎn)換變量的方式來修改數(shù)據(jù)集。該步驟涉及工具為:變量轉(zhuǎn)換、缺失處理、重新編碼以及數(shù)據(jù)分箱等。
3.4 Model 為了獲得可靠的預(yù)測結(jié)果,我們需要借助于分析工具來訓(xùn)練統(tǒng)計模型或者機器學(xué)習(xí)模型。該步驟涉及技術(shù)為:線性及邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、偏最小二乘法、LARS及LASSO、K近鄰法以及其他用戶(包括非SAS用戶)的模型算法。
3.5 Assess 評估數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。涉及技術(shù)為:比較模型及計算新的擬合統(tǒng)計量、臨界分析、決策支持、報告生成、評分代碼管理等。數(shù)據(jù)挖掘者可能不會使用全部SEMMA分析步驟。然而,在獲得滿意結(jié)果之前,可能需要多次重復(fù)其中部分或者全部步驟。
在完成SEMMA步驟后,可將從優(yōu)選模型中獲取的評分公式應(yīng)用于(可能不含目標變量的)新數(shù)據(jù)。將優(yōu)選公式應(yīng)用于新數(shù)據(jù),這是大多數(shù)數(shù)據(jù)挖掘問題的目標。此外,先進的可視化工具使得用戶能在多維直方圖中快速、輕松地查閱大量數(shù)據(jù)并以圖形化方式比較模擬結(jié)果。SAS/EM包括了一些非同尋常的工具,比如:能用來產(chǎn)生數(shù)據(jù)挖掘流程圖的完整評分代碼(SAS、C以及Java代碼)的工具,以及交換式進行新數(shù)據(jù)評分計算和考察執(zhí)行結(jié)果的工具。
如果您將優(yōu)選模型注冊進入SAS元數(shù)據(jù)服務(wù)器,便可以讓SAS/EG和SAS/DI Studio的用戶分享您的模型,從而將優(yōu)選模型的評分代碼整合進入工作報告和生產(chǎn)流程之中。SAS模型管理系統(tǒng),通過提供了開發(fā)、測試和生產(chǎn)系列環(huán)境的項目管理結(jié)構(gòu),進一步補充了數(shù)據(jù)挖掘過程,實現(xiàn)了與SAS/EM的無縫聯(lián)接。
在SAS/EM環(huán)境中,您可以從SEMMA工具欄上拖放節(jié)點進入工作區(qū)的工藝流程圖中,這種流程圖驅(qū)動著整個數(shù)據(jù)挖掘過程。SAS/EM的圖形用戶界面(GUI)是按照這樣的思路來設(shè)計的:一方面,掌握少量統(tǒng)計知識的商務(wù)分析者可以瀏覽數(shù)據(jù)挖掘過程的技術(shù)方法;另一方面,具備數(shù)量分析技術(shù)的專家可以用微調(diào)方式深入探索每一個分析節(jié)點。
4 結(jié)束語
在近十年時間里,數(shù)據(jù)采集、存儲和數(shù)據(jù)分析技術(shù)飛速發(fā)展,大大降低了數(shù)據(jù)儲存和處理的成本,一個大數(shù)據(jù)時代逐漸展現(xiàn)在我們的面前。大數(shù)據(jù)革新性地將海量數(shù)據(jù)處理變?yōu)榭赡?,并且大幅降低了成本,使得越來越多跨專業(yè)學(xué)科的人投入到大數(shù)據(jù)的開發(fā)應(yīng)用中來。
參考文獻:
[1]薛志文.淺析計算機網(wǎng)絡(luò)技術(shù)及其發(fā)展趨勢[J].信息與電腦,2009.
[2]張帆,朱國仲.計算機網(wǎng)絡(luò)技術(shù)發(fā)展綜述[J].光盤技術(shù),2007.
[3]孫雅珍.計算機網(wǎng)絡(luò)技術(shù)及其應(yīng)用[J].東北水利水電,1994.
[4]史萍.計算機網(wǎng)絡(luò)技術(shù)的發(fā)展及展望[J].五邑大學(xué)學(xué)報,1999.
[5]桑新民.步入信息時代的學(xué)習(xí)理論與實踐[M].中央廣播大學(xué)出版社,2000.
[6]張浩,郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢與分類研究[J].軟件導(dǎo)刊.
[7]王丹.數(shù)字城市與城市地理信息產(chǎn)業(yè)化――機遇與挑戰(zhàn)[J].遙感信息,2000(02).
[8]楊鳳霞.淺析Excel 2000對數(shù)據(jù)的安全管理[J].湖北商業(yè)高等??茖W(xué)校學(xué)報,2001(01).