- 相關推薦
基于數據倉庫的聯機分析處理技術論文
摘要:數據倉庫是信息業界的明日之星,數據倉庫與聯機事務處理(OLAP)是過去十幾年來最熱門的信息領域,它們的目標是以計算機來取代許多當前的作業。文章首先介紹了數據倉庫和聯機分析處理技術的基本概念,比較并分析了它們同傳統的數據庫的差異,最后介紹并探討了聯機分析處理技術的發展領域。
關鍵詞:關鍵詞:數據倉庫;聯機分析處理;聯機事務處理;傳統數據庫
中圖分類號:TP392 文獻標志碼:A 文章編號:
引言:
隨著市場競爭的日趨激烈,信息對于企業的生存和發展發揮著越來越重要的作用。與此同時,在各個領域產生了大量的數據,但是面對不斷增加如潮水般的數據,傳統的數據庫管理系統已無法滿足決策支持系統對數據的要求,因此人們提出了更深層次的問題:能不能從數據中 提取信息或者知識為決策服務。在這種情況下,一種適用于決策支持系統的數據組織與管理技術—數據倉庫1技術應運而生。
1.數據倉庫技術
1.1 數據庫到數據倉庫的演變
傳統的數據庫與OLTP(On-Line Transaction Process)平臺并不是為了分析數據而設計的,用戶可以在一個OLTP平臺上安裝數個應用系統,它在數據共享、數據與應用程序的獨立性、維護數據的一致性和完整行及數據的安全保密性等方面提供了有效的手段。但是當它與分析型應用結合時,卻出現了許多問題。
首先,利用傳統的數據庫進行數據分析,分析的結果缺乏可靠性。其次,利用傳統的數據庫進行數據處理,其效率很低。第三,傳統的數據庫難以將數據轉化成信息。第四,傳統的數據庫系統主要用于事務處理,而在事務處理型的應用環境中直接構建分析決策型應用是不可能的。所以,為了提高分析和決策的效率和有效性,面向分析決策型應用的數據處理及其數據必須與事務處理型應用環境分離,建立單獨的分析決策型應用環境。數據倉庫正是為了解決這一問題而誕生的一種數據存儲和組織技術。
數據倉庫與傳統的數據庫的不同之處在于數據倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合,它可以支持企業或組織的決策分析處理2。
2. 聯機分析處理技術
聯機分析處理OLAP(On-Line Analytical Processing)技術3是基于數據倉庫進行數據分析的一種技術。OLAP可使企業數據分析人員、企業經理及企業其他管理人員通過對企業信息的多種可能的觀察角度進行快速、一致和交互性的存取,以獲得對信息的深入理解。
2.1 OLAP的基本特性
OLAP是數據處理的一種技術概念,其定義簡單的概括為:共享多維信息的快速分析。OLAP通過對多維信息以很多種可能的觀察方式進行快速、穩定一致和交互性的存取,允許管理決策人對數據進行深入觀察。其特點4有四個方面:
(1)快速性。用戶對OLAP的快速反應能力有很高的要求。要求系統能在幾秒鐘內對用戶的多數分析要求做出反應;
(2)可分析性。OLAP系統應能處理與應用有關的任何邏輯分析和統計分析;
(3)多維性。多維性是OLAP的關鍵屬性和靈魂,系統能夠提供對數據分析的多維視圖和分析,包括層次維和多重層次維的支持。
(4)信息性。OLAP系統能夠及時獲得信息,并且管理大容量信息;
(5)共享性。共享性是在大量用戶間實現潛在地共享秘密數據所必須的安全需求。
2.2 OLAP的基本分析操作
OLAP的基本操作是指通過對多維形式組織起來的數據進行切片、切塊、聚合、鉆取、旋轉等分析動作,以求剖析數據使用戶能夠從多種維度、多個側面、多種數據綜合度查看數據,從而深入地了解包含在數據中的信息、內涵。
(1)切片(Slicing)。
切片操作就是在某個或某些維上選定一個屬性成員,而在其他維上取一定區間的屬性成員,或全部屬性成員來觀察數據的一種分析方式。
(2)切塊(Dicing)。
切塊就是在各個維上取一定區間的成員屬性,或全部成員屬性來觀察數據的一種分析方式。從另一個角度講,切塊可以看成是在切片的基礎上,進一步確定各個屬性成員的區間得到的片段體,也即由多個切片疊合起來。
(3)鉆取(Drilling)。
鉆取包含向下鉆(Drill-down)和向上鉆(Drill-up) /上卷(Roll-up)操作。下鉆指從概括性的數據出發獲得相應的更詳細的數據,上鉆則相反。鉆取的深度與維度所劃分的層次相對應。
(4)旋轉(Pivoting)。
旋轉即改變一個報告或頁面顯示的維方向。旋轉可能包含交換行和列,或是把某一個行維移到列為中去,或包頁面顯示中的一個維和頁面外的維進行交換。
3. OLAP與數據倉庫
在數據倉庫中 ,OLAP和數據倉庫是密不可分的,但是兩者是不同的概念。
數據倉庫是一個包含企業歷史數據的大規模數據庫,這些歷史數據要用于對企業的經營決策提供分析和支持。數據倉庫中的數據是不能用于OLTP的,而OLAP則利用數據倉庫中的數據進行聯機分析,將復雜的分析查詢結果快速地返回用戶。OLAP利用多維數據集和數據聚集技術對數據倉庫中的數據進行組織和匯總,用聯機分析和可視化工具對這些數據迅速進行評價。
OLAP可用多級結構表示數據倉庫中的數據,創建組織和匯總數據的立方體,這樣才能有效的提高用戶復雜查詢的要求。因此數據倉庫的結構將直接影響立方體的設計和構造,也就影響了OLAP的工作效率。
從OLAP使用的效率角度考慮,在設計數據倉庫時應該考慮一下幾個因素:
(1)盡可能使用星型架構,如果采用雪花結構,就要最小化事實表底層維度表以后的維度表數量。
(2)為用戶設計包含事實表的維度表,這些維度表應該包含有意義的、用戶希望了解的信息。
(3)度表的設計應該符合通常意義上的范式約束,維度表中不要出現無關的數據。
(4)事實表中不要包含匯總數據,事實表中包含的用戶需要訪問的數據應該具有必需的粒度,這些數據應該是同一層次的數據。
(5)對事實表和維度表中的關鍵字必須創建索引,同一中數據盡可能使用一個事實表。
(6)保證數據的參考完整性,使事實表中的所有數據都出現在所有的維度表中,避免事實表中的某些數據行在立方體進行聚集運算時沒有參加過來。
4. OLAP的發展
OLAP技術5是在市場競爭日益激烈,決策人員迫切需要準確及時并且可以靈活訪問的決策信息的背景下興起的。其主要的發展領域為:
(1)市場和銷售分析
幾乎每個商業公司都需要此類軟件,但其大規模分布在:生活消費品行業、零售業、金融服務業。此類行業通常都需要用發哦OLAP能夠對大量數據進行復雜的分析和統計功能。
(2)電子商務分析
電子商務網站記錄了用戶在網上的所有行為,為更精細的分析用戶行為提供了可能。一個典型的商業網站每天都產生大量的數據,簡單手工分析顯然難以勝任,用多維、分層OLAP可以很好的把這些數據組織起來。
(3)基于歷史數據的營銷
通過各種不同的歷史數據,用數據挖掘或統計的方法,找到針對某項服務或商品的銷售對象。雖然傳統上不是OLAP的范圍,但是通過多維數據分析的引入,會取得更好的效果。
(4)預算
預算通常是從下到上提交和從上到下約束的反復過程,OLAP工具可以在這個過程中提供分析能力。預算制定者利用OLAP提供的工具瀏覽市場、銷售、生成及合并計劃等企業全方位的數據,得到一個較合理的方案,也可以利用這些數據自動制定出方案。
(5)財務報告與整合
早起的財務報告整合系統與現在OLAP相似,但是OLAP利用對多維數據的分析能夠更好的對其進行管理。
(6)管理報告
(7)利益率分析
(8)質量分析
5. 小結
數據倉庫和聯機分析處理技術在市場競爭日益激烈的的背景下逐漸興起,目前正處于快速發展的階段。文章首先對數據倉庫和聯機分析處理技術做了詳細介紹并將它們和傳統的數據庫做了對比,得出數據倉庫和聯機分析處理技術是在傳統數據庫無法到達設計者需求下產生的。文章最后對聯機分析處理技術的發展領域做了介紹和分析。相信在不久的將來基于數據倉庫的聯機分析處理技術定會成為處理數據的主流技術。
參考文獻:
HanJiawei,LuHongjun:The Leeture of Datamining and DatawarehouseSP Onsoredby:IBM China University RelationshiPs,1995年
基金項目:國家自然科學基金青年基金(61103195);國家博士后基金項目(20100480048)
【基于數據倉庫的聯機分析處理技術論文】相關文章:
基于單片機的脈沖信號采集與處理分析論文10-10
基于網絡環境背景下的計算機信息處理與安全技術分析的論文10-08
基于僑鄉文化的分析論文03-25
中小河道治理及淤泥處理技術分析論文10-09
基于《末日哲學家》的分析論文10-08
水利水電軟基處理粉噴樁技術分析論文10-09
肉羊養殖技術分析論文10-09