- 相關推薦
統計數據挖掘的方法及應用
統計數據挖掘的方法及應用
摘要:在我國,經濟統計工作的進行是為了有效地反映經濟發展狀況,為決策者提供有效決策的依據。
因此,統計部門在進行經濟統計時必須重視經濟統計信息的準確性和可靠性。
統計數據挖掘技術可以從混亂、紛繁的數據中提取關鍵的信息與知識,有利于過程控制、決策支持、查詢優化、信息管理等工作的順利開展,在信息爆炸的時代具有十分重要的應用價值。
因此,分析統計數據挖掘的方法,探究統計數據挖掘技術的恰當應用是非常必要的。
關鍵詞:統計數據挖掘;聚類分析方法;統計基礎方法
數據挖掘是由數據采集、數據處理、數據規則知識表達和知識應用與服務等幾個方面組成。
其中,數據采集是基礎,數據處理是關鍵,數據規則知識表達是形式,知識應用與服務是目的。
現實世界中的大部分數據是有污染的,任何對數據的分析和挖掘都是建立在或多或少的病態數據基礎上的,沒有好的數據,就不可能提供可靠的規則和知識。
規則往往是被大量復雜的數據項隱藏,有些數據是冗余的,有些數據是完全無關的,它們的存在有可能影響到有價值規則的發現,這必然要求我們在數據處理過程中把好數據關,即選擇什么樣的數據,如何進行數據清理,對選擇好的數據如何處理、要進行哪些處理,只有過好數據關才能保證整個基于統計分析的數據挖掘工作的順利完成。
一、數據挖掘技術的概念及特征
數據挖掘技術,簡單地說就是從大量的數據信息中挖掘出有用的信息。
這里大量的數據信息通常被認為是不完全的、模糊的、有噪音的、隨機的,是完全沒有加以處理的信息。
而挖掘之后呈現的就是有效的、潛在有用的、新穎的信息。
這樣的一個變化過程,也常常被認為是數據挖掘。
數據挖掘,可以是經濟信息轉換的一個過程,還可以是一門交叉的學科。
數據挖掘是一門涉及面廣的學科,包括機器學習、神經網絡、數據庫、數據統計等等,現在廣泛應用于統計界。
數據挖掘作為一個信息轉換的過程,其大體的步驟是:數據準備――數據挖掘――結果分析總結。
數據挖掘的主要功能是:分類、預測模型、數據聚類、數據總結等。
數據挖掘的特點,同時又是數據挖掘的優點有以下幾點:其一,處理的數據量巨大;其二,具有自動找尋信息的功能;其三,能夠有效地描繪過去和預測未來;其四,信息反映快捷及時。
數據挖掘常常采用的一些技術有:關聯規則方法、聚集檢測、記憶基礎推理方法、鏈接分析等等。
二、統計數據挖掘的內容
隨著統計信息化工程的進展,各地市統計系統的數據庫建設正在緊鑼密鼓地進行,有的已經開始,有的正在醞釀之中。
一般小型數據庫采用了FoxPro、Access等數據庫軟件,大型數據庫采用了oracle系統,同時一些大型企業也都建立了自己的統計數據庫。
另外還有基于Web的統計數據庫系統,這些不同數據源收集的統計信息,通過數據清理、數據變換、數據集成、數據裝人和定期數據刷新就構成了一個大型的統計數據倉庫,為統計數據的挖掘創造了條件。
具體來講統計數據挖掘的內容有:
(一)時間序列數據序的挖掘
時間序列數據庫是存放隨時間變化序列值的數據庫,包括反映月度、季度變化的進度數據庫以及年度數據庫,由于這些數據是經過長期歷史積累形成的,因此顯得尤其珍貴。
其中有些是反映國家或某一地區國家經濟和社會發展的,出現在各種統計年鑒中的,有些是反映企業的生產、銷售、成本等狀況的,有些是反映市場狀況的,如交易狀況。
通過對時間序列數據庫的挖掘,可以發現數據庫中對象演變特征或對象的變化趨勢,以及相互之間的長期均衡的各種關系,利用這些信息可以進行有關預測及決策和進一步的定量分析。
(二)截面數據庫的挖掘
截面數據庫是存放同一時間上不同個體數據指標的數據庫,包括不同省市、城市、縣鎮區的宏觀經濟指標數據庫,也包括不同企業、家庭及居民的各種行為指標數據庫,反映了不同個體之間的差異性及特殊性。
通過對截面數據庫的挖掘,可以發現不同個體之間呈現出的各種規律及量化關系,以及通過統計中的聚類分析、判別分析,對不同個體進行分類,還可以進行孤立點分析,判別出那些數據與數據的一般行為或模型不一致,例如可以發現信用卡欺詐、為騙取保險金的偽保險、交易中的違規交易等。
(三)統計信息數據庫的挖掘
統計信息涵蓋了國家社會、經濟、科技信息的主要方面,是國家重要的基本信息資源。
統計工作信息化的建設一直是各級統計部門工作中的重點,已經初具規模,有FoxPro為系統的小型信息數據庫,也有oracle大型數據庫管理系統,此外,還開發引進了一些通用的和專用的報表處理、統計報表排版、統計分析等應用較件,各種統計信息資源應有盡有。
同是大型企業也十分重視建立統計信息管理系統,主要用于企業內部的統計業務處理和向上級公司和政府機關上報報表。
通過對統計信息數據庫的挖掘,可以全方位掌握和了解最新的國民經濟、社會發展、企業景氣狀況的動態,為政府和企業的決策服務。
(四)統計普查數據庫的挖掘
普查是專門組織的一次性全面調查,是全面系統地掌握國情國力統計資料的重要途徑。
例如工業普查、農業普查、人口普查、物質庫存普查、工作設備普查等等。
由于進行普查的工作量大,需要動員較多的人力、物力,組織一次很不容易,因此普查的統計資料就顯得尤為珍貴,需要對普查后的數據整理、保存,建立相關統計普查數據庫,通過對統計普查數據庫的挖掘,可以掌握相關的真實數據,從普查中提煉出有價值的信息。
(五)抽樣調查數據庫的挖掘
在社會經濟現象中,有很多現象,是無法進行全面調查的,有些也不必要進行全面調查,這樣抽樣調查的方法就顯得比較重要,它較全面調查有節省人力、財力,速度快等優點。
由于抽樣調查需要事先設計好抽樣框,要體現出隨機性原則,因此隨機抽樣,并不是簡單地抽取,要完成一次好的隨機抽樣也并不是易事,抽樣調查的結果也非常有價值,抽樣調查的結果保存在計算機中,就形成了抽樣調查數據庫。
通過抽樣調查數據庫的挖掘可以及時了解社會經濟,特別是居民生活方面的現實狀況,對企業來講可全方位地了解市場信息及市場行情。
三、統計數據挖掘的方法及應用探析
(一)統計基礎方法
數據挖掘經常能夠用到統計的基礎方法,例如,用直方圖和莖葉圖對樣本數據作描述;數據結構的基本特征可以用數據的集中頻次和頻率進行描述;數據中心可以用均值、中位數和眾數進行描述;數據的離散特征可以用極值與百分位點等進行點狀描述;數據的離散特征可以用極差和離差進行區間描述;數據特征的綜合描述可以用樣本方差或箱形圖等。
此外,數據挖掘中,還廣泛的應用了回歸分析,回歸又包括線性回歸和非線性回歸。
線性回歸是最簡單的回歸形式。
雙變量回歸是將一個隨機變量看作另一個隨機變量的線性函數。
非線性回歸用于描述變量間的曲線性式關系。
回歸分析表明了數據間的相關關系,為進一步的數據分析提供了依據。
(二)聚類分析方法
在模式類型無法得知的情況下,可以運用聚類分析法進行分類、識別。
按照模式間的相似程度進行自動分類的聚類分析法,能夠將相似度大的模式歸為一類。
聚類分析法有凝聚算法、分裂算法、增量聚類和劃分聚類。
例如,層次方法就是按照一定的層次分解給定的數據對象集合,可以分為分裂層次方法和凝聚層次方法。
聚類分析法適用于分析樣本之間的內部關系,合理的評價樣本結構。
此外,孤立點的檢測也可以應用聚類分析。
聚類是為了將某個對象從大量的數據中分離出來,不是簡單地將數據集聚在一起。
目前,聚類分析廣泛應用于圖像處理、模式識別、經濟分析等多個領域。
(三)粗集方法
在缺少數據先驗知識的情況下,例如隸屬函數、隸屬度和概率分布等,直接從給定的問題出發,問題的近似域確定可以運用不可分辨類與不可分辨關系,找出問題中存在的規律。
粗集理論和證據理論、神經網絡、模糊集等一樣都是進行不確定性計算的重要理論方法,粗集方法在數據挖掘中有著廣泛的應用,在殘缺、模糊信息和知識的分類與獲取上有著較大的應用優勢,比較有代表性的方法有:統計檢驗方法;單規則離散器方法;信息嫡方法等。
這些方法都各具特點,但又存在著一個共同的缺陷――每個屬性的離散化過程是各自獨立的,這忽視了不同屬性之間的關聯,進而導致離散的結果中包含了不合理或冗余的分割點。
四、結束語
可以確信,如果數學是統計方法的首要工具,那么以計算機和網絡為代表的信息技術,正在成為統計應用的首要工具。
隨著統計學與現代信息技術的融合,在方法上不斷進行新的探索,一定會為統計學和數據挖掘未來的發展開辟一片新的天地。
參考文獻:
[1]陳鳳蘭.數據挖掘技術在經濟統計中的應用[J].現代商業,2010,05
[2]吳慧香.數據挖掘在財務風險警報系統中的應用[J].財會通訊,2008,02
[3]丁衛平,王杰華,管致錦.基于數據挖掘技術的教學評估智能輔助決策平臺的設計與實現[J].電化教育研究,2009,04
[4]李占宣.數據庫中面向復雜應用的查詢方法[J].電腦學習,2009,04
【統計數據挖掘的方法及應用】相關文章:
數據挖掘在電子商務的應用論文10-09
數據挖掘在電子商務管理中的應用論文10-09
Web數據挖掘技術在電子商務中的應用論文10-09
淺談數據挖掘在電子商務中的應用經濟論文10-10
計算機應用基礎教學方法10-26
列方程解應用題的方法10-26
關于談經濟統計的應用方法論文10-09
淺談項目管理方法在物業管理的應用10-05
中醫學多元教學方法的應用的論文10-08
開放性應用題的學習方法總結01-23