以大規(guī)模數(shù)據(jù)庫為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文
摘 要:基于大規(guī)模數(shù)據(jù)庫構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的目的在信息化迅速發(fā)展的今天對數(shù)據(jù)庫功能實現(xiàn)更深度的發(fā)掘,促進決策者從巨大的數(shù)據(jù)量中迅速、準確的找到所需的數(shù)據(jù)資源,并基于此來實現(xiàn)有效決策。本研究就筆者工作經(jīng)驗提出了數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法,期望與同行業(yè)者分享和相互學(xué)習(xí)。
關(guān)鍵詞:數(shù)據(jù)庫;數(shù)據(jù)挖掘;系統(tǒng)構(gòu)建;大規(guī)模
數(shù)據(jù)庫技術(shù)的建立使大量的電子信息得以儲存和抽取,但在浩瀚如煙的數(shù)字式化信息資源庫中,如何更快、更好的將需要的有效信息提煉和挖掘出來,逐漸成為大規(guī)模數(shù)據(jù)庫系統(tǒng)的重要課題研究之一[1]。數(shù)據(jù)挖掘技術(shù)是一種在數(shù)據(jù)庫中提取具有未知性、隱含性、潛在性的有用信息的特殊方法和過程,包含了關(guān)聯(lián)規(guī)則、分類、聚類、泛化、預(yù)測等多個方面,而獲取信息的準確性、挖掘操作的伸縮性、數(shù)據(jù)分析工具的實用性等成為近些年的研究熱點。本研究就筆者工作經(jīng)驗提出了數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法,期望與同行業(yè)者分享和相互學(xué)習(xí)。
1.數(shù)據(jù)挖掘系統(tǒng)的功能
1.1數(shù)據(jù)的泛化與清洗功能
該數(shù)據(jù)挖掘系統(tǒng)可使已有數(shù)據(jù)泛化至更高的層次,利用GDBR的泛化集成算法將時間和空間的復(fù)雜度進行條件關(guān)聯(lián),并采用N-Gram技術(shù)高效、準確的對系統(tǒng)中具有相似性的重復(fù)記錄進行檢測和梳理[2],對較常見的拼寫錯誤進行規(guī)范的刪除、插入、替換、交換等智能操作,達到清洗效果。由于常規(guī)的消除基本算法在檢測的精度方面存在一定的缺陷,本系統(tǒng)對該消除基本算法進行了一定的改進,合理應(yīng)用統(tǒng)計學(xué)原理減噪,結(jié)合正、逆雙向的重復(fù)矩陣,加大了對拼寫錯誤的檢出率和修改準確率。
1.2數(shù)據(jù)的挖掘功能
該系統(tǒng)對數(shù)據(jù)的挖掘是在相關(guān)的關(guān)聯(lián)、時序等規(guī)則下,對數(shù)據(jù)進行有效分類、聚類,達到期望的數(shù)據(jù)挖掘系統(tǒng)應(yīng)用目的。
數(shù)據(jù)中具有頻繁性的項集進行尋找和整合,實現(xiàn)Apriori算法,再通過頻繁的項集形成關(guān)聯(lián)規(guī)則。其方法是:假設(shè)頻繁項集記為l,l中的所有非空子集記為a,若support(l)/support(a)的值超過min conf,那么規(guī)則a=>(l-a)直接輸出;若l的非空子集不滿足以上條件,即無法輸出相應(yīng)規(guī)則,則不以a來形成關(guān)聯(lián)規(guī)則。時序規(guī)則類似于關(guān)聯(lián)規(guī)則,但其更傾向于對系統(tǒng)內(nèi)項集在時間上的關(guān)聯(lián)性,該系統(tǒng)應(yīng)用AprioriAll算法來實現(xiàn)時序規(guī)則[3]。
關(guān)聯(lián)規(guī)則從廣義上而言包含了強規(guī)則、隨機規(guī)則和例外規(guī)則。例外規(guī)則呈現(xiàn)了小部分數(shù)據(jù)所服從的規(guī)則,其雖然數(shù)量不多,但具有高可信度,是對可預(yù)測信息以外的、不被我們現(xiàn)階段所知的信息產(chǎn)生的規(guī)則。例外關(guān)聯(lián)規(guī)則可滿足最小可信度的系統(tǒng)設(shè)置,本系統(tǒng)還可由此生成CAR、ECAR和刪除SCAR。
對于已經(jīng)有明確定義和分類的數(shù)據(jù)信息,可對其產(chǎn)生具有描述性的數(shù)據(jù)類別,也可對未知類別的數(shù)據(jù)產(chǎn)生相應(yīng)的分類標準,即分類器。在本系統(tǒng)中,應(yīng)用了區(qū)間分類器,可達到更高的準確率和分類精度,并減少決策樹分類器可能產(chǎn)生的過深樹狀延伸。
聚類算法則是將一些密度較高的簇進行合并,采用CURE算法,以多個代表點標記不同的簇,從而形成一定的簇分布框架,再對特殊形狀進行有效識別,擴大數(shù)據(jù)處理量和增強處理能力。層次聚類法是該系統(tǒng)主要應(yīng)用的聚類方法,在方法啟用前,數(shù)據(jù)挖掘系統(tǒng)會自動將所有信息對象進行數(shù)據(jù)空間分布的劃分,使其形成多個數(shù)據(jù)單元,并根據(jù)單元特性計算簇的分布。另一種比較具有特色的聚類方法是密度聚類法,通過改進Dbscan算法,以代表性鄰居對象的擴展種子點選取加快算法速度、以較小分區(qū)聚類來實現(xiàn)數(shù)據(jù)分區(qū)、以取樣數(shù)據(jù)聚類來實現(xiàn)整個數(shù)據(jù)庫的聚類,實現(xiàn)更加有效的系統(tǒng)聚類運算。
2.數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法
2.1整體框架結(jié)構(gòu)
該系統(tǒng)把各類相關(guān)模塊進行緊密的結(jié)合,并形成具有層次性的數(shù)據(jù)結(jié)構(gòu),包括多數(shù)據(jù)源、多類輸出、多種參數(shù)的差別性操作功能,從而實現(xiàn)各挖掘操作模塊之間的相互獨立,使系統(tǒng)的功能性更強、運行更穩(wěn)定。但作為一個系統(tǒng)整體,各模塊間又存在著協(xié)調(diào)統(tǒng)一的相互關(guān)聯(lián)性,使各個模塊所應(yīng)用的數(shù)據(jù)源、數(shù)據(jù)參數(shù)及挖掘結(jié)果能夠?qū)崿F(xiàn)規(guī)范化、系統(tǒng)性操作。由于該系統(tǒng)擴大了數(shù)據(jù)挖掘的范圍,使挖掘?qū)ο蟛粌H存在于數(shù)據(jù)庫當中,還可能存在于相應(yīng)的文件當中,故而系統(tǒng)中亦提供了相應(yīng)的文件信息處理方法。為方便挖掘結(jié)果的呈現(xiàn)、并對決策分析實現(xiàn)遠期性的支持,系統(tǒng)還設(shè)置了對數(shù)據(jù)挖掘結(jié)果的自動保留功能,擴大了應(yīng)用范圍。當然,由于計算機的操作者是人,整個系統(tǒng)還具有友好的操作界面,便于系統(tǒng)的應(yīng)用者和決策者進行決策分析,實現(xiàn)準確決策。
2.2模塊設(shè)置
根據(jù)以上對本系統(tǒng)框架結(jié)構(gòu)的詮釋,特別設(shè)置了如下模塊以實現(xiàn)該數(shù)據(jù)挖掘系統(tǒng)的相關(guān)功能。
挖掘模塊用來對數(shù)據(jù)庫中不同數(shù)據(jù)實現(xiàn)挖掘操作功能,不同的挖掘模塊相互獨立,但統(tǒng)一受數(shù)據(jù)庫的管理模塊控制,其數(shù)據(jù)來源由存儲控制模塊產(chǎn)生,通過挖掘?qū)⑾鄳?yīng)數(shù)據(jù)寫入到挖掘庫中,為其它模塊提供數(shù)據(jù)依據(jù)。
預(yù)處理模塊以數(shù)據(jù)源定義、格式化、過濾等為主要功能,使整個系統(tǒng)更具有實用性和操作性,其中以數(shù)據(jù)映射、類型映射和列映射為主要子模塊。數(shù)據(jù)映射是將源表數(shù)據(jù)映射成為ID形式[4],再生成相應(yīng)的對照表,使形式不同的數(shù)據(jù)通過映射形成統(tǒng)一的、具有挖掘性的模塊形式。類型映射是對源數(shù)據(jù)進行類型的轉(zhuǎn)換,這種轉(zhuǎn)換具有強制性,使不同類型的數(shù)據(jù)庫數(shù)據(jù)形成統(tǒng)一,便于挖掘。列映射從源數(shù)據(jù)中提取需要的列,便于減少數(shù)據(jù)量、加速運算速度。
存儲控制模塊是對整個數(shù)據(jù)庫中的各數(shù)據(jù)進行統(tǒng)一的`操作,而外部文件則需要先行導(dǎo)入后再進行存儲控制。底層接口采用ODBC技術(shù),并應(yīng)用緩沖和內(nèi)存索引功能來加速系統(tǒng)的運算能力。
挖掘管理模塊是整個數(shù)據(jù)挖掘系統(tǒng)的核心模塊,對于用戶在數(shù)據(jù)庫中挖掘到的各類信息結(jié)果,均利用挖掘庫進行存放。挖掘庫直接設(shè)立在系統(tǒng)數(shù)據(jù)庫當中,便于管理和調(diào)用。挖掘庫管理包括數(shù)據(jù)準備、數(shù)據(jù)挖掘和數(shù)據(jù)存放過程中的各類操作,這些操作信息在挖掘庫中的存放具有順序性,有利于操作的便捷。但是,數(shù)據(jù)挖掘操作在整個挖掘過程中具有非獨立性,需要以另一個數(shù)據(jù)挖掘操作結(jié)果為源頭,并生成新的挖掘結(jié)果,而這一新結(jié)果很可能又成為另一個挖掘過程的數(shù)據(jù)源頭。
2.3界面設(shè)置
該系統(tǒng)的主界面類似于Explorer的界面風(fēng)格,具有人性化、可操作性、美觀等特點。利用不同的圖形技術(shù)來對不同挖掘結(jié)果進行表述。系統(tǒng)應(yīng)用表格來表示泛化及清洗結(jié)果,利用樹狀結(jié)構(gòu)來對決策樹進行呈現(xiàn),用二維和三維點來對聚類結(jié)果進行顯示,用文本顯示各類規(guī)則與模式。
3.結(jié)語
目前基于大規(guī)模數(shù)據(jù)庫構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的研究較多,目的在信息化迅速發(fā)展的今天對數(shù)據(jù)庫功能實現(xiàn)更深度的發(fā)掘,促進決策者從巨大的數(shù)據(jù)量中迅速、準確的找到所需的數(shù)據(jù)資源,并基于此來實現(xiàn)有效決策。在本文的相關(guān)介紹中,筆者僅對某數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法進行了簡單介紹,由于目前相關(guān)的數(shù)據(jù)集成系統(tǒng)越來越多的被發(fā)布和認可,建議有效應(yīng)用如Quest、DBMiner等的優(yōu)點,并進一步行系統(tǒng)改進,結(jié)合企業(yè)的特點和需求進行數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建,從而達到更好的經(jīng)濟和應(yīng)用效益。
參考文獻:
[1]廣西科學(xué)院學(xué)報,2010,26(4):520-522.
【以大規(guī)模數(shù)據(jù)庫為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文】相關(guān)文章:
1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的集成數(shù)據(jù)庫 -電腦資料01-01
基于GIS的基礎(chǔ)數(shù)據(jù)庫管理系統(tǒng)07-11
數(shù)據(jù)挖掘論文09-24
數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)跟數(shù)據(jù)庫系統(tǒng)的區(qū)別01-15
大數(shù)據(jù)崛起與數(shù)據(jù)挖掘分析論文11-28
數(shù)據(jù)挖掘技術(shù)的研究論文01-22
分布式大規(guī)模數(shù)據(jù)庫系統(tǒng) HadoopDB 簡介 -電腦資料01-01