數(shù)據(jù)挖掘技術論文
隨著信息技術迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產生了大量的數(shù)據(jù)。下面是小編為大家精心推薦的數(shù)據(jù)挖掘技術論文,希望能夠對您有所幫助。
數(shù)據(jù)挖掘技術論文篇一
淺談數(shù)據(jù)挖掘
摘 要:數(shù)據(jù)挖掘是從海量數(shù)據(jù)中分析發(fā)現(xiàn)具有特定的模式、關聯(lián)規(guī)則關系以及異常信息所表達出來的特點功能等在統(tǒng)計學有意義的結構和事件。該文簡要分析介紹了數(shù)據(jù)挖掘的含功能、技術及其應用等。
關鍵詞:數(shù)據(jù)挖掘 技術 應用
中圖分類號:TP311 文獻標識碼:A 文章編號:1674-098X(2013)04(c)-0054-01
數(shù)據(jù)挖掘是在信息的海洋中從統(tǒng)計學的角度分析發(fā)現(xiàn)有用的知識,并且能夠充分利用這些信息,發(fā)揮其巨大的作用,從而創(chuàng)造價值,為社會生產服務。數(shù)據(jù)挖掘工具能夠掃描整個數(shù)據(jù)庫,并且識別潛在的以往未知的模式。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是與計算機科學相關,包括人工智能、數(shù)據(jù)庫知識、機器學習、神經(jīng)計算和統(tǒng)計分析等多學科領域和方法的交叉學科,是從大量信息中提取人們還不清楚的但具有對于潛在決策過程有用的信息和知識的過程[1]。數(shù)據(jù)挖掘能夠自動對數(shù)據(jù)進行分析,并歸納總結,推理,分析數(shù)據(jù),從而幫助決策者對信息預測和決策其作用[2]。
對比數(shù)據(jù)挖掘及傳統(tǒng)數(shù)據(jù)分析(例如查詢、報表),其本質區(qū)別在于:前者在沒有明確假設的前提下通過挖掘信息,提取有用的資料,并提升到知識層面,從而幫助提供決策支持。所以數(shù)據(jù)挖掘又稱為知識挖掘或者知識發(fā)現(xiàn)。數(shù)據(jù)挖掘通過統(tǒng)計學、數(shù)據(jù)庫、可視化技術、機器學習和模式識別等諸多方法來實現(xiàn)叢大量數(shù)據(jù)中自動搜索隱藏在其中的有著特殊關聯(lián)性的信息[3]。
2 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘有許多挖掘分析工具,可以在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關系,常用數(shù)據(jù)挖掘技術包括:聚類分析和分類分析,偏差分析等。
分類分析和聚類分析的主要區(qū)別在于前者是已知要處理的數(shù)據(jù)對象的類,后者不清楚處理的數(shù)據(jù)對象的類。聚類是對記錄分組,把相似的記錄在一個聚集里,聚集不依賴于預先定義好的類,不需要訓練集。分類分析是預先假定有給定的類,并假定數(shù)據(jù)庫中的每個對象歸屬于這個類,并把數(shù)據(jù)分配到這個給定類中。通過分析訓練集中的數(shù)據(jù),準確描述每個類別,并進行建模、挖掘分類規(guī)則,并依據(jù)該分類規(guī)則,劃分其他數(shù)據(jù)庫中的數(shù)據(jù)類別。聚類分析是非監(jiān)督學習,不依靠預先定義的類和帶類標號的訓練數(shù)據(jù)集,實體對象集合依照某種相似性度量原則,歸納為若干個類似實體對象組成的多個類或簇的過程,不同類中的數(shù)據(jù)盡可能存在差異,同類中的數(shù)據(jù)之間各個數(shù)據(jù)盡可能相似。
存在大量數(shù)據(jù)的數(shù)據(jù)庫中,數(shù)據(jù)中存在著偏差,而在偏差中也包括了大量的知識。偏差分析是當數(shù)據(jù)庫中存在異常行為,就顯示出要采取預防措施;否則,正常的變化,則需要更新數(shù)據(jù)庫中的記錄[4]。
3 數(shù)據(jù)挖掘方法
要的數(shù)據(jù)挖掘方法包括決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡、近鄰算法和規(guī)則推導等。通過描述和可視化來對數(shù)據(jù)挖掘結果進行表示。
決策樹是以實例為基礎的歸納學習算法。著決策集的樹形結構代表決策樹,樹型結構表示分類或決策集合。決策樹是采用自頂向下的遞歸方式,樹的非終端節(jié)點表示屬性,葉節(jié)點表示所屬的不同類別。
遺傳算法是基于種群“多樣性”和“優(yōu)勝劣汰”原則等進化理論,模擬生物進化過程的全局優(yōu)化方法,將群體中將較劣的初始解通過復制、交叉和變異3個基本算子優(yōu)化求解的技術,在求解空間隨機和定向搜索特征的多次迭代過程,直到求得問題的最優(yōu)解[5]。
人工神經(jīng)網(wǎng)絡對人腦神經(jīng)元進行模擬,依據(jù)其非線形預測模型,通過模式識別的方式展開,獲取的知識需要存儲在網(wǎng)絡各單元之間的連接權中。人工神經(jīng)網(wǎng)絡能夠完成分類和聚類等挖掘[5]。
關聯(lián)規(guī)則是進行數(shù)據(jù)挖掘的重要的可悲發(fā)現(xiàn)的知識,對于兩個或多個變量的取值之間存在某種規(guī)律性,并對其進行可信度的分析,挖掘其中的關聯(lián)關系。這對于發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,發(fā)現(xiàn)其數(shù)據(jù)模式和特征,然后發(fā)現(xiàn)目標行為具有重要意義。
4 數(shù)據(jù)挖掘的應用
在醫(yī)學領域,科學家從異構和分布式基因數(shù)據(jù)發(fā)現(xiàn)的基因序列的識別、發(fā)現(xiàn)基因表達譜數(shù)據(jù)中的差異表達基因,疾病不同階段的致病基因等,運用各種數(shù)據(jù)挖掘技術了解各種疾病之間的相互關系、發(fā)展規(guī)律,總結治療效果這對疾病的診斷、治療和醫(yī)學研究都是很有價值的。在零售業(yè)/市場營銷,通過對顧客購物籃的分析,把顧客經(jīng)常同時買的商品放在一起,幫助如何擺放貨架上的商品,挖掘購買商品的關聯(lián)關系,規(guī)劃如何相互搭配進貨,促銷產品組合等商業(yè)活動[6]。
數(shù)據(jù)挖掘在生物信息學中有著廣泛的應用。生物信息學就是通過對生物學實驗產生的海量數(shù)據(jù),進行分類、處理、分析和存儲,達到深入理解生命科學中基于分子水平的生物信息的生物學意義。如差異基因表達檢測的基因芯片,就是具有高通量的特點,并同時能夠產生許多生物學數(shù)據(jù),在其中蘊含著豐富的生物學意義。分析和挖掘基因芯片數(shù)據(jù),檢測差異表達基因在不同環(huán)境條件的異常表達值,能夠生層次的了解生物學知識,提高對生命科學研究的科學性和效率。對癌癥差異基因的分析結果分析,能夠更好的檢測有關疾病,并根據(jù)相關疾病的基因特性,就能有針對性的進行個體化治療,開發(fā)個體化的新藥。
進入2013年,有許多媒體都在稱之為“大數(shù)據(jù)元年”。大數(shù)據(jù)也就是擁有龐大的數(shù)據(jù)信息,事務數(shù)據(jù)量大規(guī)模增長,而且大數(shù)據(jù)是要處理大量的非規(guī)范化數(shù)據(jù),數(shù)據(jù)挖掘和分析是必不可少的。爆炸性的大數(shù)據(jù)的產生,可能會改變人們的思考方式,也重塑了人類交流的方式[7]。
5 結語
數(shù)據(jù)挖掘技術能自動分析數(shù)據(jù),廣泛應用于各個企事業(yè)單位,分析調查大量數(shù)據(jù),分析企業(yè)經(jīng)營對社會,經(jīng)濟和環(huán)境的綜合影響,并預測企業(yè)未來的發(fā)展趨勢,從數(shù)據(jù)倉庫中揭示出數(shù)據(jù)之間的潛在價值的規(guī)律性,形成知識發(fā)現(xiàn),為決策管理提供依據(jù)。
參考文獻
[1] 孟曉明.淺談數(shù)據(jù)挖掘技術[J].計算機應用與軟件,2004(8).
[2] 丁樣武,楊瑩.數(shù)據(jù)挖掘在醫(yī)學上的應川[J].鄖陽醫(yī)學院學報,1999(3):130-132.
[3] 黃曉霞,蕭蘊詩.數(shù)據(jù)挖掘集成技術研究[J].計算機應用研究,2003(4):37.39.
[4] 王陽,張春華.數(shù)據(jù)挖掘技術、應用及發(fā)展趨勢[J].信息化與網(wǎng)絡建設,2003(4).
[5] 任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應用[D].廣州:暨南大學,2005.
[6] 唐曉萍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)綜述[J].電腦開發(fā)與應用,2002(2).
[7] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究月發(fā)展,2013(1).
點擊下頁還有更多>>>數(shù)據(jù)挖掘技術論文