定 價:¥99.00
作 者: | (印度)湯姆斯·約翰,潘卡·米斯拉 |
出版社: | 機械工業(yè)出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787111615538 | 出版時間: | 2019-01-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 字數(shù): |
譯者序
推薦序
關于作者
關于技術審核人員
前言
第一部分 概述
第1章 數(shù)據(jù)導論 2
1.1 探索數(shù)據(jù) 3
1.2 什么是企業(yè)數(shù)據(jù) 4
1.3 企業(yè)數(shù)據(jù)管理 5
1.4 大數(shù)據(jù)相關概念 6
1.5 數(shù)據(jù)與企業(yè)的相關性 8
1.6 數(shù)據(jù)質(zhì)量 9
1.7 企業(yè)中數(shù)據(jù)如何存放 10
1.7.1 內(nèi)聯(lián)網(wǎng)(企業(yè)內(nèi)部) 10
1.7.2 互聯(lián)網(wǎng)(企業(yè)外部) 10
1.7.3 數(shù)據(jù)持久化存儲(RDBMS或者NoSQL) 12
1.7.4 傳統(tǒng)的數(shù)據(jù)倉庫 13
1.7.5 文件存儲 13
1.8 企業(yè)現(xiàn)狀 14
1.9 企業(yè)數(shù)字化轉型 15
1.10 數(shù)據(jù)湖用例啟示 16
1.11 總結 17
第2章 數(shù)據(jù)湖概念概覽 18
2.1 什么是數(shù)據(jù)湖 18
2.2 數(shù)據(jù)湖如何幫助企業(yè) 19
2.3 數(shù)據(jù)湖是如何工作的 20
2.4 數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別 21
2.5 數(shù)據(jù)湖的構建方法 22
2.6 Lambda架構驅動的數(shù)據(jù)湖 22
2.6.1 數(shù)據(jù)攝取層——攝取數(shù)據(jù)用于處理和存儲 23
2.6.2 批處理層——批量處理已提取數(shù)據(jù) 23
2.6.3 快速處理層——近實時數(shù)據(jù)處理 24
2.6.4 數(shù)據(jù)存儲層——存儲所有數(shù)據(jù) 24
2.6.5 服務層——數(shù)據(jù)交付與導出 25
2.6.6 數(shù)據(jù)獲取層——從源系統(tǒng)獲取數(shù)據(jù) 25
2.6.7 消息層——數(shù)據(jù)傳輸?shù)谋U?nbsp;26
2.6.8 探索數(shù)據(jù)攝取層 27
2.6.9 探索Lambda層 28
2.7 總結 35
第3章 Lambda架構:一種數(shù)據(jù)湖
實現(xiàn)模式 36
3.1 什么是Lambda架構 36
3.2 Lambda 架構簡史 37
3.3 Lambda架構的原則 37
3.3.1 容錯原則 38
3.3.2 不可變數(shù)據(jù)原則 38
3.3.3 重新計算原則 38
3.4 Lambda架構的組件 38
3.4.1 批處理層 39
3.4.2 快速處理層 41
3.4.3 服務層 43
3.5 Lambda架構的完整工作原理 44
3.6 Lambda架構的優(yōu)勢 45
3.7 Lambda架構的劣勢 46
3.8 Lambda架構技術概覽 46
3.9 應用Lambda 47
3.9.1 企業(yè)級日志分析 47
3.9.2 獲取和分析傳感器數(shù)據(jù) 47
3.9.3 電子郵件平臺實時統(tǒng)計 48
3.9.4 實時賽事分析 48
3.9.5 推薦引擎 48
3.9.6 安全威脅分析 48
3.9.7 多渠道用戶行為分析 48
3.10 Lambda架構運行范例 48
3.11 Kappa架構 49
3.12 總結 50
第4章 數(shù)據(jù)湖中的Lambda應用 51
4.1 Hadoop發(fā)行版本介紹 51
4.2 影響企業(yè)大數(shù)據(jù)技術棧選擇的因素 53
4.2.1 技術能力 53
4.2.2 是否易于部署和維護 53
4.2.3 集成準備 53
4.3 批處理層與數(shù)據(jù)處理 53
4.3.1 NameNode服務器 54
4.3.2 Secondary NameNode服務器 55
4.3.3 YARN 55
4.3.4 數(shù)據(jù)存儲節(jié)點 55
4.3.5 快速處理層 56
4.3.6 Flume用于數(shù)據(jù)獲取 57
4.3.7 Spark Streaming 58
4.4 服務層 62
4.4.1 數(shù)據(jù)存儲層 62
4.4.2 數(shù)據(jù)訪問層 63
4.5 總結 64
第二部分 數(shù)據(jù)湖的技術組件
第5章 基于Apache Sqoop的批量數(shù)據(jù)獲取 68
5.1 數(shù)據(jù)湖背景中的數(shù)據(jù)獲取 68
5.1.1 數(shù)據(jù)獲取層 68
5.1.2 批量數(shù)據(jù)獲取——技術路線圖 69
5.2 為什么使用Apache Sqoop 70
5.2.1 Sqoop簡史 71
5.2.2 Sqoop的優(yōu)勢 71
5.2.3 Sqoop的劣勢 72
5.3 Sqoop的功能 72
5.3.1 Sqoop 2的架構 74
5.3.2 Sqoop 1與Sqoop 2 75
5.3.3 Sqoop的功能 77
5.3.4 使用Sqoop導入數(shù)據(jù) 77
5.3.5 使用Sqoop導出數(shù)據(jù) 78
5.4 Sqoop connector 79
5.5 Sqoop對HDFS的支持 81
5.6 Sqoop運行范例 81
5.6.1 安裝與配置 81
5.6.2 數(shù)據(jù)源配置 90
5.6.3 Sqoop配置(數(shù)據(jù)庫驅動) 91
5.6.4 將HDFS配置為目的地 91
5.6.5 Sqoop數(shù)據(jù)導入 91
5.6.6 Sqoop數(shù)據(jù)導出 97
5.6.7 Sqoop job 98
5.6.8 Sqoop 2 99
5.6.9 SCV用例視角中的Sqoop 102
5.7 適合使用Sqoop的場景 103
5.8 不適合使用Sqoop的場景 104
5.9 實時Sqooping是否可行 104
5.10 其他選項 104
5.10.1 原生大數(shù)據(jù)connector 105
5.10.2 Talend 106
5.10.3 Pentaho Kettle(PDI——Pentaho數(shù)據(jù)集成) 106
5.11 總結 106
第6章 基于Apache Flume的流式數(shù)據(jù)獲取 108
6.1 數(shù)據(jù)獲取 108
6.1.1 什么是流式數(shù)據(jù) 109
6.1.2 批量數(shù)據(jù)和流式數(shù)據(jù) 110
6.1.3 流式數(shù)據(jù)獲取——技術路線圖 110
6.1.4 什么是Flume 111
6.1.5 Sqoop和Flume 112
6.2 為什么使用Flume 113
6.2.1 Flume簡史 113
6.2.2 Flume的優(yōu)勢 113
6.2.3 Flume的劣勢 114
6.3 Flume的架構原則 114
6.4 Flume架構 115
6.4.1 Flume 架構之一:分布式數(shù)據(jù)流水線 116
6.4.2 Flume 架構之二:扇出 117
6.4.3 Flume 架構之三:扇入 117
6.4.4 Flume架構中的3層設計 118
6.4.5 高級Flume架構 118
6.4.6 Flume的可靠性級別 120
6.5 Flume事件——流式數(shù)據(jù) 120
6.6 Flume Agent 120
6.7 Flume Source 122
6.8 Flume Channel 123
6.9 Flume Sink 125
6.10 Flume配置 126
6.11 Flume事務管理 127
6.12 Flume的其他組件 128
6.12.1 Channel Processor 128
6.12.2 Interceptor 129
6.12.3 Channel Selector 129
6.12.4 Sink Group 130
6.12.5 事