亚洲免费人人妻人人,cao78在线视频,福建一级毛片,91精品视频免费观看,高清另类图片操逼,日本特黄特色大片免费看,超碰欧美人人澡曰曰澡夜夜泛

<fieldset id="3bls4"><small id="3bls4"><strike id="3bls4"></strike></small></fieldset>

論文范文

優(yōu)文網(wǎng)>畢業(yè)論文>論文范文> 以大規(guī)模數(shù)據(jù)庫為基礎的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

我要投稿投訴建議

以大規(guī)模數(shù)據(jù)庫為基礎的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

時間：2024-10-07 18:39:26 論文范文我要投稿

相關(guān)推薦

以大規(guī)模數(shù)據(jù)庫為基礎的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

　　摘要：基于大規(guī)模數(shù)據(jù)庫構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的目的在信息化迅速發(fā)展的今天對數(shù)據(jù)庫功能實現(xiàn)更深度的發(fā)掘，促進決策者從巨大的數(shù)據(jù)量中迅速、準確的找到所需的數(shù)據(jù)資源，并基于此來實現(xiàn)有效決策。本研究就筆者工作經(jīng)驗提出了數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法，期望與同行業(yè)者分享和相互學習。

以大規(guī)模數(shù)據(jù)庫為基礎的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

　　關(guān)鍵詞：數(shù)據(jù)庫；數(shù)據(jù)挖掘；系統(tǒng)構(gòu)建；大規(guī)模

　　數(shù)據(jù)庫技術(shù)的建立使大量的電子信息得以儲存和抽取，但在浩瀚如煙的數(shù)字式化信息資源庫中，如何更快、更好的將需要的有效信息提煉和挖掘出來，逐漸成為大規(guī)模數(shù)據(jù)庫系統(tǒng)的重要課題研究之一[1]。數(shù)據(jù)挖掘技術(shù)是一種在數(shù)據(jù)庫中提取具有未知性、隱含性、潛在性的有用信息的特殊方法和過程，包含了關(guān)聯(lián)規(guī)則、分類、聚類、泛化、預測等多個方面，而獲取信息的準確性、挖掘操作的伸縮性、數(shù)據(jù)分析工具的實用性等成為近些年的研究熱點。本研究就筆者工作經(jīng)驗提出了數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法，期望與同行業(yè)者分享和相互學習。

　　1.數(shù)據(jù)挖掘系統(tǒng)的功能

　　1.1數(shù)據(jù)的泛化與清洗功能

　　該數(shù)據(jù)挖掘系統(tǒng)可使已有數(shù)據(jù)泛化至更高的層次，利用GDBR的泛化集成算法將時間和空間的復雜度進行條件關(guān)聯(lián)，并采用N-Gram技術(shù)高效、準確的對系統(tǒng)中具有相似性的重復記錄進行檢測和梳理[2]，對較常見的拼寫錯誤進行規(guī)范的刪除、插入、替換、交換等智能操作，達到清洗效果。由于常規(guī)的消除基本算法在檢測的精度方面存在一定的缺陷，本系統(tǒng)對該消除基本算法進行了一定的改進，合理應用統(tǒng)計學原理減噪，結(jié)合正、逆雙向的重復矩陣，加大了對拼寫錯誤的檢出率和修改準確率。

　　1.2數(shù)據(jù)的挖掘功能

　　該系統(tǒng)對數(shù)據(jù)的挖掘是在相關(guān)的關(guān)聯(lián)、時序等規(guī)則下，對數(shù)據(jù)進行有效分類、聚類，達到期望的數(shù)據(jù)挖掘系統(tǒng)應用目的。

　　數(shù)據(jù)中具有頻繁性的項集進行尋找和整合，實現(xiàn)Apriori算法，再通過頻繁的項集形成關(guān)聯(lián)規(guī)則。其方法是：假設頻繁項集記為l，l中的所有非空子集記為a，若support（l）/support（a）的值超過min conf，那么規(guī)則a=>（l-a）直接輸出；若l的非空子集不滿足以上條件，即無法輸出相應規(guī)則，則不以a來形成關(guān)聯(lián)規(guī)則。時序規(guī)則類似于關(guān)聯(lián)規(guī)則，但其更傾向于對系統(tǒng)內(nèi)項集在時間上的關(guān)聯(lián)性，該系統(tǒng)應用AprioriAll算法來實現(xiàn)時序規(guī)則[3]。

　　關(guān)聯(lián)規(guī)則從廣義上而言包含了強規(guī)則、隨機規(guī)則和例外規(guī)則。例外規(guī)則呈現(xiàn)了小部分數(shù)據(jù)所服從的規(guī)則，其雖然數(shù)量不多，但具有高可信度，是對可預測信息以外的、不被我們現(xiàn)階段所知的信息產(chǎn)生的規(guī)則。例外關(guān)聯(lián)規(guī)則可滿足最小可信度的系統(tǒng)設置，本系統(tǒng)還可由此生成CAR、ECAR和刪除SCAR。

　　對于已經(jīng)有明確定義和分類的數(shù)據(jù)信息，可對其產(chǎn)生具有描述性的數(shù)據(jù)類別，也可對未知類別的數(shù)據(jù)產(chǎn)生相應的分類標準，即分類器。在本系統(tǒng)中，應用了區(qū)間分類器，可達到更高的準確率和分類精度，并減少決策樹分類器可能產(chǎn)生的過深樹狀延伸。

　　聚類算法則是將一些密度較高的簇進行合并，采用CURE算法，以多個代表點標記不同的簇，從而形成一定的簇分布框架，再對特殊形狀進行有效識別，擴大數(shù)據(jù)處理量和增強處理能力。層次聚類法是該系統(tǒng)主要應用的聚類方法，在方法啟用前，數(shù)據(jù)挖掘系統(tǒng)會自動將所有信息對象進行數(shù)據(jù)空間分布的劃分，使其形成多個數(shù)據(jù)單元，并根據(jù)單元特性計算簇的分布。另一種比較具有特色的聚類方法是密度聚類法，通過改進Dbscan算法，以代表性鄰居對象的擴展種子點選取加快算法速度、以較小分區(qū)聚類來實現(xiàn)數(shù)據(jù)分區(qū)、以取樣數(shù)據(jù)聚類來實現(xiàn)整個數(shù)據(jù)庫的聚類，實現(xiàn)更加有效的系統(tǒng)聚類運算。

　　2.數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法

　　2.1整體框架結(jié)構(gòu)

　　該系統(tǒng)把各類相關(guān)模塊進行緊密的結(jié)合，并形成具有層次性的數(shù)據(jù)結(jié)構(gòu)，包括多數(shù)據(jù)源、多類輸出、多種參數(shù)的差別性操作功能，從而實現(xiàn)各挖掘操作模塊之間的相互獨立，使系統(tǒng)的功能性更強、運行更穩(wěn)定。但作為一個系統(tǒng)整體，各模塊間又存在著協(xié)調(diào)統(tǒng)一的相互關(guān)聯(lián)性，使各個模塊所應用的數(shù)據(jù)源、數(shù)據(jù)參數(shù)及挖掘結(jié)果能夠?qū)崿F(xiàn)規(guī)范化、系統(tǒng)性操作。由于該系統(tǒng)擴大了數(shù)據(jù)挖掘的范圍，使挖掘?qū)ο蟛粌H存在于數(shù)據(jù)庫當中，還可能存在于相應的文件當中，故而系統(tǒng)中亦提供了相應的文件信息處理方法。為方便挖掘結(jié)果的呈現(xiàn)、并對決策分析實現(xiàn)遠期性的支持，系統(tǒng)還設置了對數(shù)據(jù)挖掘結(jié)果的自動保留功能，擴大了應用范圍。當然，由于計算機的操作者是人，整個系統(tǒng)還具有友好的操作界面，便于系統(tǒng)的應用者和決策者進行決策分析，實現(xiàn)準確決策。

　　2.2模塊設置

　　根據(jù)以上對本系統(tǒng)框架結(jié)構(gòu)的詮釋，特別設置了如下模塊以實現(xiàn)該數(shù)據(jù)挖掘系統(tǒng)的相關(guān)功能。

　　挖掘模塊用來對數(shù)據(jù)庫中不同數(shù)據(jù)實現(xiàn)挖掘操作功能，不同的挖掘模塊相互獨立，但統(tǒng)一受數(shù)據(jù)庫的管理模塊控制，其數(shù)據(jù)來源由存儲控制模塊產(chǎn)生，通過挖掘?qū)⑾鄳獢?shù)據(jù)寫入到挖掘庫中，為其它模塊提供數(shù)據(jù)依據(jù)。

　　預處理模塊以數(shù)據(jù)源定義、格式化、過濾等為主要功能，使整個系統(tǒng)更具有實用性和操作性，其中以數(shù)據(jù)映射、類型映射和列映射為主要子模塊。數(shù)據(jù)映射是將源表數(shù)據(jù)映射成為ID形式[4]，再生成相應的對照表，使形式不同的數(shù)據(jù)通過映射形成統(tǒng)一的、具有挖掘性的模塊形式。類型映射是對源數(shù)據(jù)進行類型的轉(zhuǎn)換，這種轉(zhuǎn)換具有強制性，使不同類型的數(shù)據(jù)庫數(shù)據(jù)形成統(tǒng)一，便于挖掘。列映射從源數(shù)據(jù)中提取需要的列，便于減少數(shù)據(jù)量、加速運算速度。

　　存儲控制模塊是對整個數(shù)據(jù)庫中的各數(shù)據(jù)進行統(tǒng)一的操作，而外部文件則需要先行導入后再進行存儲控制。底層接口采用ODBC技術(shù)，并應用緩沖和內(nèi)存索引功能來加速系統(tǒng)的運算能力。

　　挖掘管理模塊是整個數(shù)據(jù)挖掘系統(tǒng)的核心模塊，對于用戶在數(shù)據(jù)庫中挖掘到的各類信息結(jié)果，均利用挖掘庫進行存放。挖掘庫直接設立在系統(tǒng)數(shù)據(jù)庫當中，便于管理和調(diào)用。挖掘庫管理包括數(shù)據(jù)準備、數(shù)據(jù)挖掘和數(shù)據(jù)存放過程中的各類操作，這些操作信息在挖掘庫中的存放具有順序性，有利于操作的便捷。但是，數(shù)據(jù)挖掘操作在整個挖掘過程中具有非獨立性，需要以另一個數(shù)據(jù)挖掘操作結(jié)果為源頭，并生成新的挖掘結(jié)果，而這一新結(jié)果很可能又成為另一個挖掘過程的數(shù)據(jù)源頭。

　　2.3界面設置

　　該系統(tǒng)的主界面類似于Explorer的界面風格，具有人性化、可操作性、美觀等特點。利用不同的圖形技術(shù)來對不同挖掘結(jié)果進行表述。系統(tǒng)應用表格來表示泛化及清洗結(jié)果，利用樹狀結(jié)構(gòu)來對決策樹進行呈現(xiàn)，用二維和三維點來對聚類結(jié)果進行顯示，用文本顯示各類規(guī)則與模式。

　　3.結(jié)語

　　目前基于大規(guī)模數(shù)據(jù)庫構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的研究較多，目的在信息化迅速發(fā)展的今天對數(shù)據(jù)庫功能實現(xiàn)更深度的發(fā)掘，促進決策者從巨大的數(shù)據(jù)量中迅速、準確的找到所需的數(shù)據(jù)資源，并基于此來實現(xiàn)有效決策。在本文的相關(guān)介紹中，筆者僅對某數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法進行了簡單介紹，由于目前相關(guān)的數(shù)據(jù)集成系統(tǒng)越來越多的被發(fā)布和認可，建議有效應用如Quest、DBMiner等的優(yōu)點，并進一步行系統(tǒng)改進，結(jié)合企業(yè)的特點和需求進行數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建，從而達到更好的經(jīng)濟和應用效益。

　　參考文獻：

　　[1]廣西科學院學報，2010，26（4）：520-522.

【以大規(guī)模數(shù)據(jù)庫為基礎的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文】相關(guān)文章：

基于GIS的基礎數(shù)據(jù)庫管理系統(tǒng)04-29

數(shù)據(jù)挖掘論文04-29

工程項目管理系統(tǒng)數(shù)據(jù)庫設計論文05-02

MQ對民航氣象數(shù)據(jù)庫系統(tǒng)的應用論文05-05

數(shù)據(jù)庫技術(shù)在學籍管理系統(tǒng)中的運用論文05-05

淺談用地紅線數(shù)據(jù)庫的構(gòu)建方法04-30

淺談用地紅線數(shù)據(jù)庫的構(gòu)建方法04-30

數(shù)據(jù)挖掘技術(shù)的研究論文05-02

1:50 000基礎地理數(shù)據(jù)庫存儲系統(tǒng)設計04-26

淺層地溫能數(shù)據(jù)庫基礎信息管理系統(tǒng)建設04-27

最新文章

<samp id="gup4m"></samp>

<center id="gup4m"><label id="gup4m"><tt id="gup4m"></tt></label></center>