淺析商業(yè)智能在稅收管理中的應(yīng)用
論文關(guān)鍵詞:商業(yè)智能數(shù)據(jù)倉庫OLAP
論文摘要:針對目前稅務(wù)管理信息系統(tǒng)存在的問題,引入商業(yè)智能手段,提出了商業(yè)智能架構(gòu)體系,給出了一個完整的商業(yè)智能系統(tǒng)建設(shè)方案,建立數(shù)據(jù)倉庫并優(yōu)化了數(shù)據(jù)倉庫的查詢,利用該數(shù)據(jù)倉庫對今后稅收情況進行預(yù)測。實際應(yīng)用結(jié)果表明,該系統(tǒng)不僅提高了稅務(wù)部門對現(xiàn)有的信息數(shù)據(jù)的利用效率,還提高了稅務(wù)部門決策分析的能力,能夠有效地指導(dǎo)稅收工作。
稅務(wù)部門商業(yè)智能系統(tǒng)建設(shè)的目標就是要為其提供一個統(tǒng)一的分析平臺建立OLAP充分利用積累的數(shù)據(jù)并對其進行深層次的挖掘,從不同的角度分析這些數(shù)據(jù)并對下階段的稅收數(shù)據(jù)作出預(yù)測.提出稅收預(yù)測的解決方案以提高稅收預(yù)測的速度和精度為領(lǐng)導(dǎo)決策提供依據(jù)
一、商業(yè)智能基本概念
1商業(yè)智能
商業(yè)智能(B日技術(shù)是一種能夠幫助企業(yè)迅速完成信息采集、分析的先進技術(shù)也是包括數(shù)據(jù)倉庫(DataWarehousing)、聯(lián)機分析處理(On一lineAnalyticalProcessing,OLAP)、數(shù)據(jù)挖掘(DataMining)在內(nèi)的用于統(tǒng)計和分析商務(wù)數(shù)據(jù)的先進的信息技術(shù)。
2.查詢報告
企業(yè)在運行過程中需要將各地的數(shù)據(jù)匯總到總部進行管理以用于建立一個數(shù)據(jù)倉庫這種數(shù)據(jù)倉庫不但保存了歷史數(shù)據(jù)階段性數(shù)據(jù)而且還能從時間上對數(shù)據(jù)進行分析同時數(shù)據(jù)倉庫還提供了裝載外部數(shù)據(jù)的功能用來接受大量的外部數(shù)據(jù)查詢這個查詢使管理者能很快地獲取相關(guān)信息進行決策。
3在線分析處理(OLAP)
在線分析處理是一種高度交互式的過程信息分析專家通過它可以即時反復(fù)進行分析迅速獲取結(jié)果。在線分析處理有多維在線分析處理、關(guān)系型在線分析處理和混合在線分析處理。分析處理過程一般包括3種可供選擇的方案:
(1)預(yù)先計算小結(jié)數(shù)據(jù)在使用前進行計算并存儲。
(2)即時計算和存儲.小結(jié)數(shù)據(jù)在查詢時計算然后存儲結(jié)果。因為消除了相應(yīng)的運行計算,使隨后的查詢運行變得更快
(3)隨時計算用戶在需要時對小結(jié)數(shù)據(jù)進行計算。
4數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的功能是從浩如煙海的數(shù)據(jù)和文檔中發(fā)現(xiàn)以前未知的、可以理解的信息進行計算或分析。由于數(shù)據(jù)挖掘的價值在于掃描數(shù)據(jù)倉庫或建立非常復(fù)雜的查詢。數(shù)據(jù)和文本挖掘工具必須提供很高的吞吐量.并且擁有并行處理功能支持多種采集。因此數(shù)據(jù)挖掘工具應(yīng)該具有良好的擴展功能能夠支持將來可能遇到的各種數(shù)據(jù)或文檔和計算環(huán)境。
二、商業(yè)智能體系結(jié)構(gòu)設(shè)計及系統(tǒng)實現(xiàn)
1系統(tǒng)功能設(shè)計
稅收管理中引入商業(yè)智能手段可以解決從基礎(chǔ)數(shù)據(jù)采集到聯(lián)機分析和數(shù)據(jù)挖掘各個環(huán)節(jié)的需求問題能夠滿足各級領(lǐng)導(dǎo)對業(yè)務(wù)信息的查詢與決策支持的需求,具體功能設(shè)計為以下七個部分:
(1)數(shù)據(jù)采集:提供了基礎(chǔ)數(shù)據(jù)采集工具:
(2)報表查詢:對經(jīng)常使用的固定報表的快速查詢;
(3)報表制作:制作并生成用戶自定義的報表;
(4)報表分析提供切片、切塊、下鉆、上卷和旋轉(zhuǎn)等數(shù)據(jù)分析功能即從不同維度上進行挖掘、清洗、匯總、處理等提取想要的相關(guān)數(shù)據(jù)結(jié)果形成報表以圖形等展現(xiàn)出來。
(5)即席報表查詢查詢即席自由組合的報表
(6)圖表分析:提供了餅圖、線圖、直方圖等圖形分析工具;
(7)與地理信息系統(tǒng)(GIS)的結(jié)合:利用數(shù)據(jù)庫的管理、查詢、統(tǒng)計和GIS的空間分析、數(shù)學(xué)分析模型等為各級領(lǐng)導(dǎo)提供信息查詢、輔助決策的功能使信息的展現(xiàn)和分析更加直觀。
2數(shù)據(jù)倉庫結(jié)構(gòu)設(shè)計
數(shù)據(jù)倉庫的設(shè)計要符合稅務(wù)系統(tǒng)的業(yè)務(wù)需求在數(shù)據(jù)倉庫的設(shè)計過程中必須與稅收業(yè)務(wù)人員以及管理人員密切配合摸清可利用的現(xiàn)有的業(yè)務(wù)數(shù)據(jù)外部數(shù)據(jù).以及真正的決策需求。稅務(wù)數(shù)據(jù)倉庫應(yīng)用模型如圖1所示
(1)數(shù)據(jù)源。稅務(wù)系統(tǒng)現(xiàn)有的業(yè)務(wù)系統(tǒng)數(shù)據(jù)源(包括其歷史數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和其它數(shù)據(jù))其數(shù)據(jù)特點是分散、難以共享和再次分析利用:
(2)中心數(shù)據(jù)倉庫。由數(shù)據(jù)倉庫及多維數(shù)據(jù)庫組成源數(shù)據(jù)經(jīng)過抽取、清洗和轉(zhuǎn)換之后裝載到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫中的數(shù)據(jù)是集中的、經(jīng)過了清洗和轉(zhuǎn)換的便于進行分析;存儲于多維數(shù)據(jù)庫中的數(shù)據(jù)是經(jīng)過了再次加工的為稅收分析與決策模型提供了必要的分析基礎(chǔ)
(3)應(yīng)用服務(wù)層。負責(zé)連接用戶對數(shù)據(jù)倉庫、多維數(shù)據(jù)庫的查詢訪問
(4)信息展示工具負責(zé)為用戶展示分析后的結(jié)果。并可對展示的數(shù)據(jù)進行再次的分析利用,形成最后的分析報表和報告。
3.數(shù)據(jù)倉庫設(shè)計
(1)概念模型設(shè)計。在稅務(wù)信息管理系統(tǒng)中包括稅務(wù)登記管理、征收管理、稅務(wù)稽查、法規(guī)及復(fù)議等各個模塊每個處理模塊存儲著既獨立又相互聯(lián)系的管理數(shù)據(jù)運用數(shù)據(jù)倉庫的理論和方法對這些管理數(shù)據(jù)進行綜合、提取可產(chǎn)生支持稅務(wù)管理決策或稅務(wù)信息訪問的信息
(2)邏輯模型設(shè)計。①分析主題域概念模型設(shè)計確定了稅務(wù)登記、申報征收、稅收計會統(tǒng)、發(fā)票管理四個主題域,其中申報征收主題是整個業(yè)務(wù)流程的中心環(huán)節(jié)所以選定申報征收主題來實施。②粒度層次劃分。對于納稅申報主題數(shù)據(jù)量巨大將從前端得來的申報數(shù)據(jù)經(jīng)過轉(zhuǎn)換作為基礎(chǔ)數(shù)據(jù),按照時間和征收機關(guān)進行綜合。③確定數(shù)據(jù)分割策略。在本系統(tǒng)中,數(shù)據(jù)分割采用按照時間和征收機關(guān)進行。
(3)設(shè)計維表及事實表根據(jù)稅務(wù)征管包含的業(yè)務(wù)范圍和決策分析的需要設(shè)計征收管理的星形模式星形模式的模型如圖2所示。納稅人的納稅情況作為事實表與之關(guān)聯(lián)的有多個維表:納稅時間維表、納稅人維表、征收機關(guān)維表,稅種維表、行業(yè)維表。
(4)物理模型設(shè)計。星形模式的建立保證了面向稅務(wù)征管的數(shù)據(jù)集市所需要的數(shù)據(jù)元素。在星形模式視圖的基礎(chǔ)上可以建立物理數(shù)據(jù)庫。
使用SQLServer2000的EnterpirseManager組件首先建立關(guān)系數(shù)據(jù)庫Revenue_mart再進一步分別建立維度表和事實表。
三、稅收分析的商業(yè)智能實現(xiàn)
1.數(shù)據(jù)預(yù)處理
建立數(shù)據(jù)倉庫系統(tǒng)的物理數(shù)據(jù)庫之后就把稅務(wù)征管系統(tǒng)中的數(shù)據(jù)抽取(Extraction)出來進行清洗和轉(zhuǎn)換(Transformation)按照面向主題的數(shù)據(jù)特征重新進行組織加載(Load)到物理數(shù)據(jù)庫Revenue_mart中。提取和加載數(shù)據(jù)倉庫是一個非常復(fù)雜、非常關(guān)鍵的過程直接影響到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的可用性。
(1)確定數(shù)據(jù)源。根據(jù)數(shù)據(jù)庫Revenue_mart中各種維度表和事實表的數(shù)據(jù)需求通過對于稅務(wù)信息管理系統(tǒng)的深人研究確立數(shù)據(jù)倉庫的兩部分數(shù)據(jù)源:存儲在數(shù)據(jù)庫服務(wù)器中的內(nèi)部數(shù)據(jù)源和以其他形式如文本、WORD、EXCEACCESS等存在的外部數(shù)據(jù)源。
(2)抽取和清洗數(shù)據(jù)。確立數(shù)據(jù)倉庫的數(shù)據(jù)源之后為了保證數(shù)據(jù)倉庫的有效性、統(tǒng)一性和完整性應(yīng)當建立階段性區(qū)域?qū)τ跀?shù)據(jù)源的數(shù)據(jù)進行抽取、驗證、清洗之后加載到階段性區(qū)域。
(3)轉(zhuǎn)換和加載數(shù)據(jù)倉庫。OLTP數(shù)據(jù)遷移到階段性區(qū)域(中間數(shù)據(jù)庫)之后需要作進一步的轉(zhuǎn)換加載到數(shù)據(jù)倉庫中。利用SQLServer2000的數(shù)據(jù)轉(zhuǎn)換服務(wù)完成數(shù)據(jù)遷移任務(wù)。
2.創(chuàng)建OLAP數(shù)據(jù)庫和數(shù)據(jù)塊
利用SQLServer2000的OLAPServices組件建立面向征管的OLAP數(shù)據(jù)庫。圖3是利用SQLServer2000建立的入庫稅款立方體示意圖圖中是按行業(yè)、時間和征收機關(guān)組織起來的三維立方體再加上變量“入庫稅款“就組成了一個多維數(shù)組(行業(yè)、時間、征收機關(guān)、入庫稅款)。如果擴展一個維就得到一個四維的結(jié)構(gòu)。如在“行業(yè)、時間、征收機關(guān)“三維立方體中進行切塊、切片可得到不同行業(yè)、不同征收機關(guān)的入庫稅款。
(1)建立OLAP數(shù)據(jù)庫Revenue_dssoOLAPServices組件提供了一個GUI界面的OLAP管理器,使用OLAP管理器選擇OLAP服務(wù)器建立OLAP數(shù)據(jù)庫Revenue_dss在OLAP管理器的控制臺樹中擴展數(shù)據(jù)庫Revenue-dss的Library文件夾建立數(shù)據(jù)庫的數(shù)據(jù)源設(shè)置OLEDBProviderforSQLServer為數(shù)據(jù)源的數(shù)據(jù)提供者選用數(shù)據(jù)庫Revenue_mart為數(shù)據(jù)源通過測試保證數(shù)據(jù)源的正確設(shè)置。
(2)創(chuàng)建OLAP共享維度。為了保證面向稅務(wù)征管的數(shù)據(jù)集市的可擴展性建立時間維度.征收機關(guān)維度.行業(yè)維度.納稅人維度和稅種維度等共享維度。
(3)建立數(shù)據(jù)塊Tax_revenue①創(chuàng)建邏輯數(shù)據(jù)塊Tax_revenue在OLAP管理器的控制臺樹中選擇數(shù)據(jù)庫Revenue_dss,利用CUBE向?qū)Ыevenue_dss數(shù)據(jù)庫的邏輯數(shù)據(jù)塊。在CUBE向?qū)е羞x擇數(shù)據(jù)表collection_fact作為數(shù)據(jù)塊的事實表選擇事實表的數(shù)值字段Nysk,Sjsk作為數(shù)據(jù)塊的測度(measures)選擇時間維度Dim_time、征收機關(guān)維度dim_department、行業(yè)維度dim_trade納稅人維度dim_taxpaye「和稅種維度dim_Category等共享維度(shareddimension)作為數(shù)據(jù)塊的維度而后把數(shù)據(jù)塊命名為丁。x_revenueo②創(chuàng)建物理數(shù)據(jù)塊Tax_revenue。創(chuàng)建OLAP邏輯數(shù)據(jù)塊Tax_revenue之后需要對該數(shù)據(jù)塊進行物理設(shè)計。利用OLAP的數(shù)據(jù)存儲向?qū)?StorageDesignWizard)可
以選擇數(shù)據(jù)塊的物理存儲類型(MOLAP,ROLAP.HOLAP)。對于數(shù)據(jù)塊Tax_revenue選擇ROLAP的存儲方式在關(guān)系數(shù)據(jù)庫中存儲事實表和數(shù)據(jù)聚合表可以節(jié)省大量的存儲空間。
選擇數(shù)據(jù)塊的存儲方式后利用OLAP的數(shù)據(jù)存儲設(shè)置數(shù)據(jù)聚合選項。數(shù)據(jù)聚合就是預(yù)先計算數(shù)據(jù)的集合值加快對于數(shù)據(jù)塊查詢的速度。數(shù)據(jù)聚合有三個選項第一個選項是磁盤空間可以選擇數(shù)據(jù)聚合所需磁盤空間的上限。第二個選項提供用戶期望實現(xiàn)的性能提高估測OLAP決定合適的數(shù)據(jù)聚合以保證性能的滿足。第三個選項是由用戶任意選擇。為了保證對于數(shù)據(jù)塊Tax_revenue的查詢性能選擇第二個聚合選項設(shè)置數(shù)據(jù)聚合的性能指標應(yīng)當達到80%。
設(shè)置了物理數(shù)據(jù)塊的存儲類型和數(shù)據(jù)聚合選項后使用OLAP的數(shù)據(jù)存儲向?qū)?shù)據(jù)塊進行處理。對數(shù)據(jù)塊Tax_revenue的處理就是從事實表。ection_fact中檢索信息根據(jù)數(shù)據(jù)聚合選項計算數(shù)據(jù)的集合值OLAPServices在關(guān)系數(shù)據(jù)庫evenue一mart中創(chuàng)建匯總數(shù)據(jù)表對這些數(shù)據(jù)聚合進行存儲。
四、結(jié)論
通過探討商業(yè)智能解決方案的相關(guān)技術(shù)結(jié)合當前的稅收工作將先進的技術(shù)用于實際工作中為稅收的信息化建設(shè)探索新思路、新方法通過建立數(shù)據(jù)倉庫把稅務(wù)人員從大量的數(shù)據(jù)操作中解救出來進而在此基礎(chǔ)上進行數(shù)據(jù)分析、預(yù)測為各級稅務(wù)干部和領(lǐng)導(dǎo)提供執(zhí)法信息和決策依據(jù)。本文提出的解決方案具有較高的先進性和實用性為有效的指導(dǎo)稅收工作、充分利用資源、加強和完善管理機制、發(fā)揮稅收經(jīng)濟杠桿的調(diào)節(jié)作用具有重要的指導(dǎo)意義。