淺析聚類(lèi)分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用論文
淺析聚類(lèi)分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用論文
聚類(lèi)(clustering)是數(shù)據(jù)挖掘領(lǐng)域最為常見(jiàn)的技術(shù)之一,用于發(fā)現(xiàn)在數(shù)據(jù)庫(kù)中未知的對(duì)象類(lèi)。即考察個(gè)體或數(shù)據(jù)對(duì)象間的相似性,將滿(mǎn)足相似性條件的個(gè)體或數(shù)據(jù)對(duì)象劃分在一組內(nèi),不滿(mǎn)足相似性條件的個(gè)體或數(shù)據(jù)對(duì)象劃分在不同的組。以下是學(xué)習(xí)啦小編為大家精心準(zhǔn)備的:淺析聚類(lèi)分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
淺析聚類(lèi)分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用全文如下:
【摘要】:以聚類(lèi)分析方法為基礎(chǔ),研究學(xué)校食堂消費(fèi)數(shù)據(jù),從而分析出男女生消費(fèi)特點(diǎn)的不同,以幫助食堂改進(jìn)經(jīng)營(yíng)策略。
【關(guān)鍵詞】: 聚類(lèi)分析 消費(fèi)數(shù)據(jù) SPSS
1 聚類(lèi)分析方法
聚類(lèi)分析(cluster analysis)是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組(clusters)的統(tǒng)計(jì)分析技術(shù)。聚類(lèi)分析方法具有簡(jiǎn)單、直觀的特點(diǎn),主要應(yīng)用于探索性的研究,其中變量的選擇有較大的影響。
2 聚類(lèi)分析基本思想
以學(xué)生的消費(fèi)記錄為研究對(duì)象, 使用聚類(lèi)分析知識(shí)進(jìn)行研究,主要使用K-Means 算法:
輸入:聚類(lèi)個(gè)數(shù)k 以及包含n 個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集;
輸出:滿(mǎn)足目標(biāo)函數(shù)值最小的k 個(gè)聚類(lèi)。
(1)計(jì)算任意兩個(gè)數(shù)據(jù)對(duì)象間的距離d(xi,xj);
(2)計(jì)算每個(gè)數(shù)據(jù)對(duì)象的密度參數(shù),把處于低密度區(qū)域的點(diǎn)刪除,得到處于高密度區(qū)域的數(shù)據(jù)對(duì)象的集合D;
(3)把處于最高密度區(qū)域的數(shù)據(jù)對(duì)象作為第1 個(gè)中心z1;
(4)把z1 距離最遠(yuǎn)的數(shù)據(jù)對(duì)象作為第2 個(gè)初始中心z2,z2∈D;
(5)令z3 為滿(mǎn)足max(min(d(xi,z1), d(xi,z2)), i =1,2,…,n 的數(shù)據(jù)對(duì)象xi,z3∈D;
(6)令z3 為滿(mǎn)足max(min(d(xi,z1), d(xi,z2)), d(xi,z3)), i =1,2,…,n 的數(shù)據(jù)對(duì)象xi,z4∈D;
(7)令zk 為滿(mǎn)足max(min(d(xi,zj))) , i =1,2,…,n, j =1,2,…,k -1 的xi,zk∈D;
(8)從這k 個(gè)聚類(lèi)中心出發(fā),應(yīng)用k-means 聚類(lèi)算法,得到聚類(lèi)。一般采用均方差作為目標(biāo)測(cè)度函數(shù): 其中E 是數(shù)據(jù)集中所有對(duì)象的均方差之和;p 是代表對(duì)象的空間中的一個(gè)點(diǎn)。
3 聚類(lèi)分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用
本文主要使用SPPS 工具來(lái)進(jìn)行聚類(lèi)分析與研究。SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案),是一種實(shí)現(xiàn)數(shù)據(jù)分析的多功能軟件。
SPSS for Windows 是一種運(yùn)行在Windows 系統(tǒng)下的社會(huì)科學(xué)統(tǒng)計(jì)軟件包,從1968 年由美國(guó)斯坦福大學(xué)開(kāi)發(fā)使用至今,在全球已經(jīng)擁有數(shù)以萬(wàn)計(jì)的用戶(hù),在通信、醫(yī)療、銀行、證券、保險(xiǎn)、制造、商業(yè)、市場(chǎng)研究、科學(xué)教育等眾多的行業(yè)領(lǐng)域都得以有效的應(yīng)用,目前,SPSS 已成為世界上應(yīng)用最廣泛的專(zhuān)業(yè)統(tǒng)計(jì)軟件之一。SPSS 軟件包采用窗口操作界面,用戶(hù)操作使用方便,包括數(shù)據(jù)整理、分析過(guò)程、結(jié)果輸出等功能。面對(duì)龐大的數(shù)據(jù)量,SPSS 軟件的功能不斷完善,其統(tǒng)計(jì)分析方法不斷充實(shí),涵蓋面越來(lái)越廣,輸出數(shù)據(jù)表格圖文并貌,大大提高了統(tǒng)計(jì)分析工作的效率。
SPSS 的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等,具體內(nèi)容包括描述統(tǒng)計(jì)、列聯(lián)分析,總體的均值比較、相關(guān)分析、回歸模型分析、聚類(lèi)分析、主成份分析、時(shí)間序列分析、非參數(shù)檢驗(yàn)等多個(gè)大類(lèi), 每個(gè)類(lèi)中還有多個(gè)專(zhuān)項(xiàng)統(tǒng)計(jì)方法。SPSS 設(shè)有專(zhuān)門(mén)的繪圖系統(tǒng),可以根據(jù)使用者的需要將給出的數(shù)據(jù)繪制各種圖形,能夠滿(mǎn)足用戶(hù)的不同需求。
聚類(lèi)分析工具的應(yīng)用:
1)打開(kāi)SPSS 軟件,并輸入數(shù)據(jù),設(shè)置變量名稱(chēng),在學(xué)生消費(fèi)數(shù)據(jù)中選擇了三十名學(xué)生的月消費(fèi)情況作為分析目標(biāo),如下圖所示為部分消費(fèi)情況,其中男女各15 名,將性別男、女處理為二值型數(shù)據(jù)分別標(biāo)記為1、2。
2)每個(gè)變量設(shè)置的部分格式:
(1)名稱(chēng):學(xué)號(hào),類(lèi)型:字符串,長(zhǎng)度:11,對(duì)齊方式:左,測(cè)量單位:名稱(chēng);(2)名稱(chēng):性別,類(lèi)型:數(shù)值,長(zhǎng)度:1,對(duì)齊方式:右,測(cè)量單位:名稱(chēng);(3)名稱(chēng):月消費(fèi)額,類(lèi)型:數(shù)值,長(zhǎng)度:6,對(duì)齊方式:右,測(cè)量單位:尺度;(4)名稱(chēng):交易次數(shù),類(lèi)型:數(shù)值,長(zhǎng)度:5,對(duì)齊方式:右,測(cè)量單位:尺度。
3)選擇“分析”—“聚類(lèi)分析”—“快速聚類(lèi)K”進(jìn)行分析,則在出現(xiàn)的界面中進(jìn)行如下設(shè)置:
將”變量”設(shè)置為:性別、月消費(fèi)額、交易次數(shù)。
將“方法”設(shè)置為:迭代與聚類(lèi)。
將“聚類(lèi)數(shù)目”設(shè)置為:2。
4)對(duì)“方法”、“迭代”選項(xiàng)進(jìn)行設(shè)置,點(diǎn)擊“確定”即出現(xiàn)運(yùn)算過(guò)程及相應(yīng)結(jié)果:
(1)初始聚類(lèi)中心
“1”類(lèi):性別為“2”(女),月消費(fèi)額為278.90,交易次數(shù)為155。
“2”類(lèi):性別為“1”(男),月消費(fèi)額為520.10,交易次數(shù)為171。
(2)迭代過(guò)程
在聚類(lèi)中心的變化分別為63.006、51.977。由于最大絕對(duì)坐標(biāo)的變化是.000, 當(dāng)前迭代是2, 最小距離是241.732,初始中心實(shí)現(xiàn)了最小的變化。
(3)最終聚類(lèi)中心
“1”類(lèi):性別為“2”(女),月消費(fèi)額為341.33,交易次數(shù)為164。
“2”類(lèi):性別為“1”(男),月消費(fèi)額為468.13,交易次數(shù)為170。
從上述運(yùn)算結(jié)果可看到30 個(gè)觀測(cè)量都有效, 并沒(méi)有丟失任何一個(gè)觀測(cè)量。最終,通過(guò)以上分析可以看出學(xué)生的消費(fèi)情況可以分為兩類(lèi),第一類(lèi)性別為2,即女生每月消費(fèi)大概為341.33 元,平均交易164次,而第二類(lèi)性別為1,即男生每月消費(fèi)大概為468.13 元,平均交易170 次。從上我們可以看出男生與女生的每月消費(fèi)情況是不同的,男生消費(fèi)較多,平均交易也自然的較多,針對(duì)食堂來(lái)說(shuō)就應(yīng)該針對(duì)男女生不同的特點(diǎn),合理安排消費(fèi)類(lèi)別,促進(jìn)學(xué)生進(jìn)行消費(fèi)。
總之,使用SPSS 軟件中的聚類(lèi)功能對(duì)校園一卡通數(shù)據(jù)進(jìn)行分析,能有效地快速分析出學(xué)生消費(fèi)的一些特征,對(duì)這部分知識(shí)的研究這里僅進(jìn)行了粗略的分析,在今后的時(shí)間里再進(jìn)行深入研究。
相關(guān)文章: