數(shù)據(jù)倉庫
目錄
1.什么是數(shù)據(jù)倉庫
數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉庫》)一書中所提出的定義被廣泛接受,數(shù)據(jù)倉庫是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
數(shù)據(jù)倉庫是一個(gè)過程而不是一個(gè)項(xiàng)目;數(shù)據(jù)倉庫是一個(gè)環(huán)境,而不是一件產(chǎn)品。數(shù)據(jù)倉庫提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。數(shù)據(jù)倉庫技術(shù)是為了有效的把操作形數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問,的各種技術(shù)和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持。
2.數(shù)據(jù)倉庫的特點(diǎn)
1、面向主題
操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。
2、集成的
數(shù)據(jù)倉庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
3、相對(duì)穩(wěn)定的
數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化
數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。
3.數(shù)據(jù)倉庫的組成
1、數(shù)據(jù)倉庫數(shù)據(jù)庫
數(shù)據(jù)倉庫的數(shù)據(jù)庫是整個(gè)數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫來說其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
2、數(shù)據(jù)抽取工具
數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。可將其按用途的不同分為兩類,技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。
4、訪問工具
為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開發(fā)工具;經(jīng)理信息系統(tǒng)(EIS)工具;聯(lián)機(jī)分析處理(OLAP)工具;數(shù)據(jù)挖掘工具。
5、數(shù)據(jù)集市(Data Marts)
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉庫。需要注意的就是再實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉庫時(shí)才不會(huì)造成大麻煩。
數(shù)據(jù)倉庫管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。
信息發(fā)布系統(tǒng):把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶?;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問的最有效方法。
4.數(shù)據(jù)倉庫的步驟
1、數(shù)據(jù)倉庫的設(shè)計(jì)步驟
1)選擇合適的主題(所要解決問題的領(lǐng)域)。
2)明確定義fact表。
3)確定和確認(rèn)維。
4)choosing the facts。
5)計(jì)算并存儲(chǔ)fact表中的衍生數(shù)據(jù)段。
6)rounding out the dimension tables。
7)choosing the duration of the database。
8)the need to tracks lowly changing dimensions。
9)確定查詢優(yōu)先級(jí)和查詢模式。
2、數(shù)據(jù)倉庫的建立步驟
1)收集和分析業(yè)務(wù)需求。
2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)。
3)定義數(shù)據(jù)源。
4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái)。
5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫。
6)選擇訪問和報(bào)表工具。
7)選擇數(shù)據(jù)庫連接軟件。
8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件。
9)更新數(shù)據(jù)倉庫 。
5.數(shù)據(jù)倉庫和數(shù)據(jù)集市
有關(guān)決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個(gè)部門或是項(xiàng)目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個(gè)儲(chǔ)存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細(xì)的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對(duì)用戶們的特定需求總結(jié)而出的。
而另外一些專家則認(rèn)為數(shù)據(jù)集市的建立并不需要首先建立一個(gè)數(shù)據(jù)倉庫。在這個(gè)模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫轉(zhuǎn)入數(shù)據(jù)集市中。一個(gè)公司可能建立有多個(gè)數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。
這種不在建立數(shù)據(jù)倉庫的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會(huì)更便宜、更快速,因?yàn)樗囊?guī)模更加易于管理。
第二種觀點(diǎn)的缺陷在于無法實(shí)現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式。現(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個(gè)全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個(gè)統(tǒng)一關(guān)于企業(yè)的活動(dòng)和客戶的知識(shí)庫。如果先建立起一個(gè)個(gè)獨(dú)立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢(shì)都能夠得以實(shí)現(xiàn),但是企業(yè)遠(yuǎn)遠(yuǎn)無法做到對(duì)數(shù)據(jù)的一致的儲(chǔ)存。