第1章 數據挖掘簡介
1.1 數據爆炸
1.2 知識發(fā)現(xiàn)
1.3 數據挖掘的應用
1.4 標簽和無標簽數據
1.5 監(jiān)督學習:分類
1.6 監(jiān)督學習:數值預測
1.7 無監(jiān)督學習:關聯(lián)規(guī)則
1.8 無監(jiān)督學習:聚類
第2章 用于挖掘的數據
2.1 標準制定
2.2 變量的類型
2.3 數據準備
2.4 缺失值
2.4.1 丟棄實例
2.4.2 用最頻繁值/平均值替換
2.5 減少屬性個數
2.6 數據集的UCI存儲庫
2.7 本章小結
2.8 自我評估練習
第3章 分類簡介:樸素貝葉斯和
最近鄰算法
3.1 什么是分類
3.2 樸素貝葉斯分類器
3.3 最近鄰分類
3.3.1 距離測量
3.3.2 標準化
3.3.3 處理分類屬性
3.4 急切式和懶惰式學習
3.5 本章小結
3.6 自我評估練習
第4章 使用決策樹進行分類
4.1 決策規(guī)則和決策樹
4.1.1 決策樹:高爾夫示例
4.1.2 術語
4.1.3 degrees數據集
4.2 TDIDT算法
4.3 推理類型
4.4 本章小結
4.5 自我評估練習
第5章 決策樹歸納:使用熵進行屬性選擇
5.1 屬性選擇:一個實驗
5.2 替代決策樹
5.2.1 足球/無板籃球示例
5.2.2 匿名數據集
5.3 選擇要分裂的屬性:使用熵
5.3.1 lens24數據集
5.3.2 熵
5.3.3 使用熵進行屬性選擇
5.3.4 信息增益最大化
5.4 本章小結
5.5 自我評估練習
第6章 決策樹歸納:使用頻率表進行屬性選擇
6.1 實踐中的熵計算
6.1.1 等效性證明
6.1.2 關于零值的說明
6.2 其他屬性選擇標準:
多樣性基尼指數
6.3 X2屬性選擇準則
6.4 歸納偏好
6.5 使用增益比進行屬性選擇
6.5.1 分裂信息的屬性
6.5.2 總結
6.6 不同屬性選擇標準生成的規(guī)則數
6.7 缺失分支
6.8 本章小結
6.9 自我評估練習
第7章 估計分類器的預測精度
7.1 簡介
7.2 方法1:將數據劃分為訓練集和測試集
7.2.1 標準誤差
7.2.2 重復訓練和測試
7.3 方法2:K-折交叉驗證
……
第8章 連續(xù)屬性
第9章 避免決策樹的過度擬合
第10章 關于熵的更多信息
第11章 歸納分類的模塊化規(guī)則
第12章 度量分類器的性能
第13章 處理大量數據
第14章 集成分類
第15章 比較分類器
第16章 關聯(lián)規(guī)則挖掘Ⅰ
第17章 關聯(lián)規(guī)則挖掘Ⅱ
第18章 關聯(lián)規(guī)則挖掘
第19章 聚類
第20章 文本挖掘
第21章 分類流數據Ⅰ
第22章 分類流數據Ⅱ:時間相關數據
附錄
參考文獻