注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫數(shù)據(jù)挖掘概念與技術(shù)(第2版)

數(shù)據(jù)挖掘概念與技術(shù)(第2版)

數(shù)據(jù)挖掘概念與技術(shù)(第2版)

定 價:¥55.00

作 者: (加)韓家煒,堪博 著,范明,孟小峰 譯
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

ISBN: 9787111205388 出版時間: 2007-03-01 包裝: 膠版紙
開本: 16開 頁數(shù): 488 字數(shù):  

內(nèi)容簡介

  本書第2版在十分豐富和全面的第1版基礎上進行了更新和改進,并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社會網(wǎng)絡和挖掘空間、多媒體和其他復雜數(shù)據(jù)。本書將是一本適用于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材。. ——Gregory Piatetsky-Shapiro, KDnuggets的總裁科學的飛速發(fā)展使產(chǎn)生和收集數(shù)據(jù)的能力快速增長。大多數(shù)商業(yè)、科學和政府事務的日益計算機化,數(shù)碼相機、發(fā)布工具和條碼的廣泛應用都產(chǎn)生著大量的數(shù)據(jù)。在數(shù)據(jù)收集方面,掃描的文本和圖像平臺、衛(wèi)星遙感系統(tǒng)和互聯(lián)網(wǎng)已經(jīng)使我們生活在海量的數(shù)據(jù)之中。這種爆炸性的數(shù)據(jù)增長促使我們比以往更迫切地需要新技術(shù)和自動化工具,以幫助我們將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識。.. 本書第1版曾被KDnuggets的讀者評選為最受歡迎的數(shù)據(jù)挖掘?qū)V且槐究勺x性極佳的教材。它從數(shù)據(jù)庫角度全面系統(tǒng)地介紹了數(shù)據(jù)挖掘的基本概念、基本方法和基本技術(shù)以及數(shù)據(jù)挖掘的技術(shù)研究進展,重點關注其可行性、有用性、有效性和可伸縮性問題。第1版出版之后,數(shù)據(jù)挖掘領域的研究又取得了很大的進展,開發(fā)出了新的數(shù)據(jù)挖掘方法、系統(tǒng)和應用。第2版在這方面進行了充實,增加了多個章節(jié)講述最新的數(shù)據(jù)挖掘方法,以便能夠挖掘出復雜類型的數(shù)據(jù),包括流數(shù)據(jù)、序列數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)、社會網(wǎng)絡數(shù)據(jù)和多重關系數(shù)據(jù)。本書適合作為高等院校計算機及相關專業(yè)高年級本科生的選修課教材,特別適合作為研究生的專業(yè)課教材,同時也適宜作為數(shù)據(jù)挖掘研究人員和相關專業(yè)人士的參考書。本書特點: ● 全面實用地論述了從實際業(yè)務數(shù)據(jù)中抽取出讀者需要的概念和技術(shù)。 ● 結(jié)合讀者的反饋,反映數(shù)據(jù)挖掘領域的技術(shù)變化以及統(tǒng)計和機器學習方面的進展。 ● 引入了許多算法和實現(xiàn)示例,全部以易于理解的偽代碼編寫,適用于實際的大規(guī)模數(shù)據(jù)挖掘項目。

作者簡介

  伊利諾伊大學厄巴納-尚佩恩分校計算機科學系教授.由于在數(shù)據(jù)挖掘和數(shù)據(jù)庫系統(tǒng)領域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACMSIGKDD頒發(fā)的創(chuàng)新獎.同時,他還是《ACMTransactionsonKnowledgeDiscoveryfromData》雜志的主編,以及《IEEETransactionsonKnowledgeandDataEngineering》和《DataMiningandKnowledgeDiscovery》雜志的編委會成員..MichelineKamber擁有加拿大康考迪亞大學計算機科學碩士學位,現(xiàn)在加拿大西蒙-弗雷澤大學從事博士后研究工作....

圖書目錄

出版者的話  
專家指導委員會  
中文版序  
譯者序  
序  
前言  
第1章 引言 1  
1.1 什么激發(fā)了數(shù)據(jù)挖掘,8為什么它是重要的 1  
1.2 什么是數(shù)據(jù)挖掘 3  
1.3 對何種數(shù)據(jù)進行數(shù)據(jù)挖掘 6  
1.3.1 關系數(shù)據(jù)庫 6  
1.3.2 數(shù)據(jù)倉庫 8  
1.3.3 事務數(shù)據(jù)庫 10  
1.3.4 高級數(shù)據(jù)和信息系統(tǒng)與高級應用 10  
1.4 數(shù)據(jù)挖掘功能—可以挖掘什么類型的模式    
1.4.1 概念/類描述:特征化和區(qū)分 14  
1.4.2 挖掘頻繁模式. 關聯(lián)和相關 15  
1.4.3 分類和預測 15  
1.4.4 聚類分析 17  
1.4.5 離群點分析 17  
1.4.6 演變分析 18  
1.5 所有模式都是有趣的嗎 18  
1.6 數(shù)據(jù)挖掘系統(tǒng)的分類 19  
1.7 數(shù)據(jù)挖掘任務原語 20  
1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的集成 22  
1.9 數(shù)據(jù)挖掘的主要問題 23  
1.10 小結(jié) 25  
習題 26  
文獻注釋 27  
第2章 數(shù)據(jù)預處理 30  
2.1 為什么要預處理數(shù)據(jù)    
2.2 描述性數(shù)據(jù)匯總 32  
2.2.1 度量數(shù)據(jù)的中心趨勢    
2.2.2 度量數(shù)據(jù)的離散程度 34  
2.2.3 基本描述數(shù)據(jù)匯總的圖形顯示 36  
2.3 數(shù)據(jù)清理 39  
2.3.1 缺失值 39  
2.3.2 噪聲數(shù)據(jù) 40  
2.3.3 數(shù)據(jù)清理作為一個過程 41  
2.4 數(shù)據(jù)集成和變換 43  
2.4.1 數(shù)據(jù)集成 43  
2.4.2 數(shù)據(jù)變換 45  
2.5 數(shù)據(jù)歸約 47  
2.5.1 數(shù)據(jù)立方體聚集 47  
2.5.2 屬性子集選擇 48  
2.5.3 維度歸約 49  
2.5.4 數(shù)值歸約 51  
2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生 55  
2.6.1 數(shù)值數(shù)據(jù)的離散化和概念分層產(chǎn)生 56  
2.6.2 分類數(shù)據(jù)的概念分層產(chǎn)生 60  
2.7 小結(jié) 62  
習題 62  
文獻注釋 65  
第3章 數(shù)據(jù)倉庫與OLAP技術(shù)概述 67  
3.1 什么是數(shù)據(jù)倉庫 67  
3.1.1 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別 68  
3.1.2 為什么需要分離的數(shù)據(jù)倉庫 69  
3.2 多維數(shù)據(jù)模型 70  
3.2.1 由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 70  
3.2.2 星形. 雪花形和事實星座形模式:多維數(shù)據(jù)庫模式 72  
3.2.3 定義星形. 雪花形和事實星座形模式的例子 75  
3.2.4 度量的分類和計算 76  
3.2.5 概念分層 77  
3.2.6 多維數(shù)據(jù)模型中的OLAP操作 79  
3.2.7 查詢多維數(shù)據(jù)庫的星形網(wǎng)查詢模型 81  
3.3 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) 82  
3.3.1 數(shù)據(jù)倉庫的設計和構(gòu)造步驟 82  
3.3.2 三層數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) 83  
3.3.3 數(shù)據(jù)倉庫后端工具和實用程序 85  
3.3.4 元數(shù)據(jù)儲存庫 86  
3.3.5 OLAP服務器類型:ROLAP  
MOLAP與HOLAP 86  
3.4 數(shù)據(jù)倉庫實現(xiàn) 88  
3.4.1 數(shù)據(jù)立方體的有效計算 88  
3.4.2 索引OLAP數(shù)據(jù) 90  
3.4.3 OLAP查詢的有效處理 92  
3.5 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 93  
3.5.1 數(shù)據(jù)倉庫的使用 93  
3.5.2 由聯(lián)機分析處理到聯(lián)機分析挖掘 95  
3.6 小結(jié) 96  
習題 97  
文獻注釋 99  
第4章  數(shù)據(jù)立方體計算與數(shù)據(jù)泛化 101  
4.1 數(shù)據(jù)立方體計算的有效方法 101  
4.1.1 不同類型立方體物化的路線圖 101  
4.1.2 完全立方體計算的多路數(shù)組聚集 105  
4.1.3 BUC:從頂點方體向下計算冰山立方體 108  
4.1.4 Star-Cubing:使用動態(tài)星形樹結(jié)構(gòu)計算冰山立方體 111  
4.1.5 為快速高維OLAP預計算殼片段 116  
4.1.6 計算具有復雜冰山條件的立方體 121  
4.2 數(shù)據(jù)立方體和OLAP技術(shù)的進一步發(fā)展 122  
4.2.1 數(shù)據(jù)立方體的發(fā)現(xiàn)驅(qū)動的探查 122  
4.2.2 在多粒度的復雜聚集:多特征立方體 124  
4.2.3 數(shù)據(jù)立方體中被約束的梯度分析 126  
4.3 面向?qū)傩缘臍w納—另一種數(shù)據(jù)泛化和概念描述方法 128  
4.3.1 數(shù)據(jù)特征化的面向?qū)傩缘臍w納 129  
4.3.2 面向?qū)傩詺w納的有效實現(xiàn) 132  
4.3.3 導出泛化的表示 133  
4.3.4 挖掘類比較:區(qū)分不同的類 136  
4.3.5 類描述:特征化和比較的表示 139  
4.4 小結(jié) 140  
習題 141  
文獻注釋 144  
第5章 挖掘頻繁模式. 關聯(lián)和相關 146  
5.1 基本概念和路線圖 146  
5.1.1 購物籃分析:引發(fā)性例子 146  
5.1.2 頻繁項集. 閉項集和關聯(lián)規(guī)則 147  
5.1.3 頻繁模式挖掘:路線圖 149  
5.2 有效的和可伸縮的頻繁項集挖掘方法 150  
5.2.1 Apriori算法:使用候選產(chǎn)生發(fā)現(xiàn)頻繁項集 151  
5.2.2 由頻繁項集產(chǎn)生關聯(lián)規(guī)則 154  
5.2.3 提高Apriori算法的效率 155  
5.2.4 不候選產(chǎn)生挖掘頻繁項集 156  
5.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項集 159  
5.2.6 挖掘閉頻繁項集 160  
5.3 挖掘各種類型的關聯(lián)規(guī)則 162  
5.3.1 挖掘多層關聯(lián)規(guī)則 162  
5.3.2 從關系數(shù)據(jù)庫和數(shù)據(jù)倉庫挖掘多維關聯(lián)規(guī)則 164  
5.4 由關聯(lián)挖掘到相關分析 168  
5.4.1 強關聯(lián)規(guī)則不一定有趣:一個例子 168  
5.4.2 從關聯(lián)分析到相關分析 168  
5.5 基于約束的關聯(lián)挖掘 172  
5.5.1 關聯(lián)規(guī)則的元規(guī)則制導挖掘 172  
5.5.2 約束推進:規(guī)則約束制導的挖掘 173  
5.6 小結(jié) 176  
習題 177  
文獻注釋 181  
第6章 分類和預測 184  
6.1 什么是分類,129什么是預測.. 184  
6.2 關于分類和預測的問題 186  
6.2.1 為分類和預測準備數(shù)據(jù) 186  
6.2.2 比較分類和預測方法 187  
6.3 用決策樹歸納分類 188  
6.3.1 決策樹歸納 189  
6.3.2 屬性選擇度量 191  
6.3.3 樹剪枝 196  
6.3.4 可伸縮性與決策樹歸納 198  
6.4 貝葉斯分類 200  
6.4.1 貝葉斯定理 201  
6.4.2 樸素貝葉斯分類 201  
6.4.3 貝葉斯信念網(wǎng)絡 204  
6.4.4 訓練貝葉斯信念網(wǎng)絡 205  
6.5 基于規(guī)則的分類 206  
6.5.1 使用IF-THEN規(guī)則分類 206  
6.5.2 從決策樹提取規(guī)則 208  
6.5.3 使用順序覆蓋算法的規(guī)則歸納 209  
6.6 用后向傳播分類 212  
6.6.1 多層前饋神經(jīng)網(wǎng)絡 213  
6.6.2 定義網(wǎng)絡拓撲 213  
6.6.3 后向傳播 214  
6.6.4 黑盒內(nèi)部:后向傳播和可解釋性 218  
6.7 支持向量機 219  
6.7.1 數(shù)據(jù)線性可分的情況 219  
6.7.2 數(shù)據(jù)非線性可分的情況 222  
6.8 關聯(lián)分類:基于關聯(lián)規(guī)則分析的分類 224  
6.9 惰性學習法(或從近鄰學習) 226  
6.9.1 k最近鄰分類法 226  
6.9.2 基于案例的推理 228  
6.10 其他分類方法 228  
6.10.1 遺傳算法 228  
6.10.2 粗糙集方法 229  
6.10.3 模糊集方法 229  
6.11 預測 231  
6.11.1 線性回歸 231  
6.11.2 非線性回歸 233  
6.11.3 其他基于回歸的方法 234  
6.12 準確率和誤差的度量 234  
6.12.1 分類器準確率度量 234  
6.12.2 預測器誤差度量 236  
6.13 評估分類器或預測器的準確率 237  
6.13.1 保持方法和隨機子抽樣 237  
6.13.2 交叉確認 238  
6.13.3 自助法 238  
6.14 系綜方法—提高準確率 238  
6.14.1 裝袋 239  
6.14.2 提升 240  
6.15 模型選擇 241  
6.15.1 估計置信區(qū)間 242  
6.15.2 ROC 曲線 243  
6.16 小結(jié) 244  
習題 245  
文獻注釋 247  
第7章 聚類分析 251  
7.1 什么是聚類分析 251  
7.2 聚類分析中的數(shù)據(jù)類型 253  
7.2.1 區(qū)間標度變量 253  
7.2.2 二元變量 255  
7.2.3 分類. 序數(shù)和比例標度變量 256  
7.2.4 混合類型的變量 259  
7.2.5 向量對象 260  
7.3 主要聚類方法的分類 261  
7.4 劃分方法 263  
7.4.1 典型的劃分方法:k均值和k中心點 263  
7.4.2 大型數(shù)據(jù)庫的劃分方法:從k中心點到CLARANS 266  
7.5 層次方法 267  
7.5.1 凝聚和分裂層次聚類 267  
7.5.2 BIRCH:利用層次方法的平衡迭代歸約和聚類 269  
7.5.3 ROCK:分類屬性的層次聚類算法 271  
7.5.4 Chameleon:利用動態(tài)建模的層次聚類算法 272  
7.6 基于密度的方法 273  
7.6.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類方法 273  
7.6.2 OPTICS:通過點排序識別聚類結(jié)構(gòu) 275  
7.6.3 DENCLUE:基于密度分布函數(shù)的聚類 276  
7.7 基于網(wǎng)格的方法 278  
7.7.1 STING:統(tǒng)計信息網(wǎng)格 278  
7.7.2 WaveCluster:利用小波變換聚類 279  
7.8 基于模型的聚類方法 280  
7.8.1 期望最大化方法 280  
7.8.2 概念聚類 281  
7.8.3 神經(jīng)網(wǎng)絡方法 283  
7.9 聚類高維數(shù)據(jù) 284  
7.9.1 CLIQUE:維增長子空間聚類方法 285  
7.9.2 PROCLUS:維歸約子空間聚類方法 287  
7.9.3 基于頻繁模式的聚類方法 287  
7.10 基于約束的聚類分析 290  
7.10.1 含有障礙物的對象聚類 291  
7.10.2 用戶約束的聚類分析 293  
7.10.3 半監(jiān)督聚類分析 293  
7.11 離群點分析 295  
7.11.1 基于統(tǒng)計分布的離群點檢測 295  
7.11.2 基于距離的離群點檢測 296  
7.11.3 基于密度的局部離群點檢測 298  
7.11.4 基于偏差的離群點檢測 299  
7.12 小結(jié) 300  
習題 301  
文獻注釋 303  
第8章 挖掘流. 時間序列和序列數(shù)據(jù) 306  
8.1 挖掘數(shù)據(jù)流 306  
8.1.1 流數(shù)據(jù)處理方法和流數(shù)據(jù)系統(tǒng) 307  
8.1.2 流OLAP和流數(shù)據(jù)立方體 310  
8.1.3 數(shù)據(jù)流中的頻繁模式挖掘 314  
8.1.4 動態(tài)數(shù)據(jù)流的分類 315  
8.1.5 聚類演變數(shù)據(jù)流 318  
8.2 時間序列數(shù)據(jù)挖掘 320  
8.2.1 趨勢分析 320  
8.2.2 時間序列分析中的相似性搜索 323  
8.3 挖掘事務數(shù)據(jù)庫中的序列模式 325  
8.3.1 序列模式挖掘:概念和原語 326  
8.3.2 挖掘序列模式的可伸縮方法 327  
8.3.3 基于約束的序列模式挖掘 333  
8.3.4 時間相關序列數(shù)據(jù)的周期性分析 335  
8.4 挖掘生物學數(shù)據(jù)中的序列模式 336  
8.4.1 生物學序列比對 336  
8.4.2 生物學序列分析的隱馬爾可夫模型 339  
8.5 小結(jié) 345  
習題 346  
文獻注釋 348  
第9章 圖挖掘. 社會網(wǎng)絡分析和多關系數(shù)據(jù)挖掘 351  
9.1 圖挖掘 351  
9.1.1 挖掘頻繁子圖的方法 351  
9.1.2 挖掘變體和約束子結(jié)構(gòu)的模式 357  
9.1.3 應用:圖索引. 相似性搜索. 分類和聚類 361  
9.2 社會網(wǎng)絡分析 363  
9.2.1 什么是社會網(wǎng)絡 363  
9.2.2 社會網(wǎng)絡的特征 365  
9.2.3 鏈接挖掘:任務和挑戰(zhàn) 367  
9.2.4 挖掘社會網(wǎng)絡 369  
9.3 多關系數(shù)據(jù)挖掘 373  
9.3.1 什么是多關系數(shù)據(jù)挖掘 373  
9.3.2 多關系分類的ILP方法 375  
9.3.3 元組ID傳播 376  
9.3.4 利用元組ID傳播進行多關系分類 377  
9.3.5 用戶指導的多關系聚類 379  
9.4 小結(jié) 382  
習題 383  
文獻注釋 384  
第10章 挖掘?qū)ο? 空間. 多媒體. 文本和Web數(shù)據(jù) 386  
10.1 復雜數(shù)據(jù)對象的多維分析和描述性挖掘 386  
10.1.1 結(jié)構(gòu)化數(shù)據(jù)的泛化 386  
10.1.2 空間和多媒體數(shù)據(jù)泛化中的聚集和近似 387  
10.1.3 對象標識和類/子類層次的泛化 388  
10.1.4 類復合層次泛化 388  
10.1.5 對象立方體的構(gòu)造與挖掘 389  
10.1.6 用分治法對規(guī)劃數(shù)據(jù)庫進行基于泛化的挖掘 389  
10.2 空間數(shù)據(jù)挖掘 391  
10.2.1 空間數(shù)據(jù)立方體構(gòu)造和空間OLAP 392  
10.2.2 挖掘空間關聯(lián)和并置模式 395  
10.2.3 空間聚類方法 396  
10.2.4 空間分類和空間趨勢分析 396  
10.2.5 挖掘光柵數(shù)據(jù)庫 396  
10.3 多媒體數(shù)據(jù)挖掘 396  
10.3.1 多媒體數(shù)據(jù)的相似性搜索 396  
10.3.2 多媒體數(shù)據(jù)的多維分析 397  
10.3.3 多媒體數(shù)據(jù)的分類和預測分析 399  
10.3.4 挖掘多媒體數(shù)據(jù)中的關聯(lián) 399  
10.3.5 音頻和視頻數(shù)據(jù)挖掘 400  
10.4 文本挖掘 401  
10.4.1 文本數(shù)據(jù)分析和信息檢索 401  
10.4.2 文本的維度歸約 405  
10.4.3 文本挖掘方法 407  
10.5 挖掘萬維網(wǎng) 410  
10.5.1 挖掘Web頁面布局結(jié)構(gòu) 411  
10.5.2 挖掘Web鏈接結(jié)構(gòu)識別權(quán)威Web頁面 413  
10.5.3 挖掘Web上的多媒體數(shù)據(jù) 416  
10.5.4 Web文檔的自動分類 418  
10.5.5 Web使用挖掘 418  
10.6 小結(jié) 419  
習題 420  
文獻注釋 421  
第11章 數(shù)據(jù)挖掘的應用和發(fā)展趨勢 424  
11.1 數(shù)據(jù)挖掘的應用 424  
11.1.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 424  
11.1.2 零售業(yè)的數(shù)據(jù)挖掘 425  
11.1.3 電信業(yè)的數(shù)據(jù)挖掘 426  
11.1.4 生物學數(shù)據(jù)分析的數(shù)據(jù)挖掘 427  
11.1.5 其他科技應用的數(shù)據(jù)挖掘 428  
11.1.6 入侵檢測的數(shù)據(jù)挖掘 429  
11.2 數(shù)據(jù)挖掘系統(tǒng)產(chǎn)品和研究原型 430  
11.2.1 如何選擇數(shù)據(jù)挖掘系統(tǒng) 431  
11.2.2 商用數(shù)據(jù)挖掘系統(tǒng)的實例 432  
11.3 數(shù)據(jù)挖掘的其他主題 433  
11.3.1 數(shù)據(jù)挖掘的理論基礎 434  
11.3.2 統(tǒng)計學數(shù)據(jù)挖掘 434  
11.3.3 可視數(shù)據(jù)和音頻數(shù)據(jù)挖掘 435  
11.3.4 數(shù)據(jù)挖掘和協(xié)同過濾 440  
11.4 數(shù)據(jù)挖掘的社會影響 440  
11.4.1 無處不在和無形的數(shù)據(jù)挖掘 441  
11.4.2 數(shù)據(jù)挖掘. 隱私和數(shù)據(jù)安全 443  
11.5 數(shù)據(jù)挖掘的發(fā)展趨勢 445  
11.6 小結(jié) 446  
習題 447  
文獻注釋 449  
附錄 微軟用于數(shù)據(jù)挖掘的OLE DB簡介 452  
A.1 模型創(chuàng)建 453  
A.2 模型訓練 454  
A.3 模型預測和瀏覽 456  
索引 460  

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號