第1章 大數據概述\t1
1.1 大數據是什么\t1
1.1.1 大數據是怎么來的\t1
1.1.2 大數據的定義與特征\t4
1.1.3 大數據與云計算、物聯(lián)網、互聯(lián)網之間的關系\t5
1.2 大數據的意義及挑戰(zhàn)\t7
1.2.1 研究大數據的意義\t7
1.2.2 大數據的異構性和不完備性\t10
1.2.3 數據處理的時效性\t10
1.2.4 數據安全與隱私保護\t11
1.2.5 大數據的能耗\t12
1.2.6 大數據管理易用性\t12
1.3 大數據技術及應用\t13
1.3.1 大數據技術框架\t13
1.3.2 大數據處理工具和技術發(fā)展趨勢\t17
1.3.3 大數據的應用\t19
【思考題】\t25
第2章 大數據的架構\t26
2.1 大數據平臺架構簡介\t26
2.1.1 傳統(tǒng)計算方式的數據瓶頸\t26
2.1.2 大數據處理平臺的技術架構\t27
2.1.3 主流大數據架構\t32
2.2 Hadoop體系架構\t37
2.2.1 Hadoop體系架構簡介\t37
2.2.2 Hadoop的應用\t48
2.2.3 Hadoop MapReduce的應用\t50
2.2.4 Hadoop MapReduce應用實例\t58
【思考題】\t74
第3章 大數據的采集及預處理\t75
3.1 大數據采集\t75
3.1.1 大數據采集簡介\t75
3.1.2 常用大數據采集工具\t81
3.1.3 常用的數據采集方法\t88
3.1.4 Kafka概述\t91
3.1.5 Kafka安裝及使用\t94
3.2 數據預處理\t100
3.2.1 數據清洗\t100
3.2.2 數據集成\t104
3.2.3 數據變換\t106
3.3 ETL技術及其工具\t108
3.3.1 數據倉庫技術ETL\t108
3.3.2 常用ETL工具\t111
3.3.3 Kettle\t113
【思考題】\t120
第4章 大數據的存儲\t121
4.1 大數據的存儲方式\t121
4.1.1 大數據存儲綜述\t121
4.1.2 數據的存儲方法\t125
4.1.3 大數據的基礎設施\t128
4.1.4 大數據文件存儲方式\t136
4.1.5 大數據存儲的特點及技術路線\t142
4.2 數據倉庫及開發(fā)模型\t144
4.2.1 數據倉庫簡介\t144
4.2.2 數據倉庫模型設計\t149
【思考題】\t161
第5章 大數據分析\t163
5.1 大數據分析概述\t163
5.1.1 數據分析的概念和分類\t164
5.1.2 大數據存在模式與結構大數據\t167
5.1.3 大數據分析與數據分析的區(qū)別\t169
5.1.4 大數據分析的背景及挑戰(zhàn)\t170
5.2 大數據分析工具及方法\t170
5.2.1 大數據分析工具及手段\t170
5.2.2 大數據分析方法\t175
5.3 數據挖掘\t192
5.3.1 數據挖掘概述\t192
5.3.2 數據挖掘工具\t194
【思考題】\t199
第6章 大數據可視化\t200
6.1 數據可視化概述\t200
6.2 大數據可視化的實現\t204
6.2.1 數據可視化方式\t204
6.2.2 大數據可視化模式及應用\t210
6.2.3 大數據可視化方法\t210
6.2.4 大數據可視化的設計\t217
6.3 主流大數據可視化工具及應用\t220
6.3.1 Excel及應用\t220
6.3.2 Processing及應用\t221
6.3.3 NodeXL及應用\t235
【思考題】\t240
參考文獻\t241