注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡家庭與辦公軟件Hadoop大數(shù)據(jù)分析實戰(zhàn)

Hadoop大數(shù)據(jù)分析實戰(zhàn)

Hadoop大數(shù)據(jù)分析實戰(zhàn)

定 價:¥129.00

作 者: 斯里達爾·奧拉 著,李垚 譯
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302527893 出版時間: 2019-05-01 包裝: 平裝
開本: 16 頁數(shù): 363 字數(shù):  

內(nèi)容簡介

  本書詳細闡述了與Hadoop 3大數(shù)據(jù)分析相關(guān)的基本解決方案,主要包括Hadoop簡介、大數(shù)據(jù)分析概述、基于MapReduce的大數(shù)據(jù)處理、Python-Hadoop科學計算和大數(shù)據(jù)分析、R-Hadoop統(tǒng)計數(shù)據(jù)計算、Apache Spark批處理分析、Apache Spark實時數(shù)據(jù)分析、Apache Flink批處理分析、Apache Flink流式處 理、大數(shù)據(jù)可視化技術(shù)、云計算簡介、使用亞馬Web服務等內(nèi)容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關(guān)方案的實現(xiàn)過程。 本書適合作為高等院校計算機及相關(guān)專業(yè)的教材和教學參考書,也可作為相關(guān)開發(fā)人員的自學教材和參考手冊。

作者簡介

暫缺《Hadoop大數(shù)據(jù)分析實戰(zhàn)》作者簡介

圖書目錄

目 錄
第1章 Hadoop簡介 1
1.1 Hadoop分布式文件系統(tǒng) 1
1.1.1 高可用性 2
1.1.2 內(nèi)部DataNode均衡器 4
1.1.3 糾刪碼 4
1.1.4 端口號 4
1.2 MapReduce框架 5
1.3 YARN 6
1.3.1 機會型容器 7
1.3.2 YARN時間軸服務v.2 7
1.4 其他變化內(nèi)容 9
1.4.1 最低Java版本 9
1.4.2 Shell腳本重寫 9
1.4.3 覆蓋客戶端的JAR 10
1.5 安裝Hadoop 3 10
1.5.1 準備條件 10
1.5.2 下載 10
1.5.3 安裝 12
1.5.4 設置無密碼ssh 12
1.5.5 設置NameNode 13
1.5.6 啟動HDFS 13
1.5.7 設置YARN服務 17
1.5.8 糾刪碼 18
1.5.9 內(nèi)部DataNode平衡器 21
1.5.10 安裝時間軸服務v.2 21
1.6 本章小結(jié) 27
第2章 大數(shù)據(jù)分析概述 29
2.1 數(shù)據(jù)分析簡介 29
2.2 大數(shù)據(jù)簡介 30
2.2.1 數(shù)據(jù)的多樣性 31
2.2.2 數(shù)據(jù)的速度 32
2.2.3 數(shù)據(jù)的容量 32
2.2.4 數(shù)據(jù)的準確性 32
2.2.5 數(shù)據(jù)的可變性 33
2.2.6 可視化 33
2.2.7 數(shù)值 33
2.2 使用Apache Hadoop的分布式計算 33
2.4 MapReduce框架 34
2.5 Hive 35
2.5.1 下載并解壓Hive二進制文件 37
2.5.2 安裝Derby 37
2.5.3 使用Hive 39
2.5.4 SELECT語句的語法 41
2.5.5 INSET語句的語法 44
2.4.6 原始類型 44
2.5.7 復雜類型 45
2.5.8 內(nèi)建運算符和函數(shù) 45
2.5.9 語言的功能 50
2.6 Apache Spark 51
2.7 基于Tableau的可視化操作 52
2.8 本章小結(jié) 54
第3章 基于MapReduce的大數(shù)據(jù)處理 55
3.1 MapReduce框架 55
3.1.1 數(shù)據(jù)集 57
3.1.2 記錄讀取器 58
3.1.3 映射 59
3.1.4 組合器 59
3.1.5 分區(qū)器 60
3.1.6 混洗和排序 60
3.1.7 reducer任務 60
3.1.8 輸出格式 61
3.2 MapReduce作業(yè)類型 61
3.2.1 SingleMapper作業(yè) 63
3.2.2 SingleMapperReducer作業(yè) 72
3.2.3 MultipleMappersReducer作業(yè) 77
3.2.4 SingleMapperReducer作業(yè) 83
3.2.5 應用場景 84
3.3 MapReduce模式 88
3.3.1 聚合模式 88
3.3.2 過濾模式 90
3.3.3 連接模式 91
3.4 本章小結(jié) 100
第4章 Python-Hadoop科學計算和大數(shù)據(jù)分析 101
4.1 安裝操作 101
4.1.1 安裝Python 101
4.1.2 安裝Anaconda 103
4.2 數(shù)據(jù)分析 110
4.3 本章小結(jié) 134
第5章 R-Hadoop統(tǒng)計數(shù)據(jù)計算 135
5.1 概述 135
5.1.1 在工作站上安裝R并連接Hadoop中的數(shù)據(jù) 135
5.1.2 在共享服務器上安裝R并連接至Hadoop 136
5.1.3 利用Revolution R Open 136
5.1.4 利用RMR2在MapReduce內(nèi)執(zhí)行R 137
5.2 R語言和Hadoop間的集成方法 138
5.2.1 RHadoop—在工作站上安裝R并將數(shù)據(jù)連接至Hadoop中 139
5.2.2 RHIPE—在Hadoop MapReduce中執(zhí)行R語言 139
5.2.3 R和Hadoop流 139
5.2.4 RHIVE—在工作站上安裝R并連接至Hadoop數(shù)據(jù) 140
5.2.5 ORCH—基于Hadoop的Oracle連接器 140
5.3 數(shù)據(jù)分析 140
5.4 本章小結(jié) 165
第6章 Apache Spark批處理分析 167
6.1 SparkSQL和DataFrame 167
6.2 DataFrame API和SQL API 171
6.2.1 旋轉(zhuǎn) 176
6.2.2 過濾器 177
6.2.3 用戶定義的函數(shù) 178
6.3 模式—數(shù)據(jù)的結(jié)構(gòu) 178
6.3.1 隱式模式 179
6.3.2 顯式模式 179
6.3.3 編碼器 181
6.4 加載數(shù)據(jù)集 182
6.5 保存數(shù)據(jù)集 183
6.6 聚合 183
6.6.1 聚合函數(shù) 184
6.6.2 窗口函數(shù) 194
6.6.3 ntiles 195
6.7 連接 197
6.7.1 連接的內(nèi)部工作機制 199
6.7.2 混洗連接 199
6.7.3 廣播連接 199
6.7.4 連接類型 200
6.7.5 內(nèi)部連接 201
6.7.6 左外連接 202
6.7.7 右外連接 203
6.7.8 全外連接 204
6.7.9 左反連接 205
6.7.10 左半連接 206
6.7.11 交叉連接 206
6.7.12 連接的操作性能 207
6.8 本章小結(jié) 208
第7章 Apache Spark實時數(shù)據(jù)分析 209
7.1 數(shù)據(jù)流 209
7.1.1 “至少一次”處理 211
7.1.2 “最多一次”處理 211
7.1.3 “僅一次”處理 212
7.2 Spark Streaming 214
7.2.1 StreamingContext 215
7.2.2 創(chuàng)建StreamingContext 215
7.2.3 啟用StreamingContext 216
7.2.4 終止StreamingContext 216
7.3 fileStream 217
7.3.1 textFileStream 217
7.3.2 binaryRecordsStream 217
7.3.3 queueStream 218
7.3.4 離散流 219
7.4 轉(zhuǎn)換 222
7.4.1 窗口操作 223
7.4.2 有狀態(tài)/無狀態(tài)轉(zhuǎn)換 226
7.5 檢查點 227
7.5.1 元數(shù)據(jù)檢查點 228
7.5.2 數(shù)據(jù)檢查點 228
7.6 驅(qū)動程序故障恢復 229
7.7 與流平臺的互操作性(Apache Kafka) 230
7.7.1 基于接收器的方案 230
7.7.2 Direct Stream 232
7.7.3 Structured Streaming 233
7.8 處理事件時間和延遲日期 236
7.9 容錯示意圖 237
7.10 本章小結(jié) 237
第8章 Apache Flink批處理分析 239
8.1 Apache Flink簡介 239
8.1.1 無界數(shù)據(jù)集的連續(xù)處理 240
8.1.2 Flink、數(shù)據(jù)流模型和有界數(shù)據(jù)集 241
8.2 安裝Flink 241
8.3 使用Flink集群UI 248
8.4 批處理分析 251
8.4.1 讀取文件 251
8.4.2 轉(zhuǎn)換 254
8.4.3 groupBy 258
8.4.4 聚合 260
8.4.5 連接 261
8.4.6 寫入文件 272
8.5 本章小結(jié) 274
第9章 Apache Flink流式處理 275
9.1 流式執(zhí)行模型簡介 275
9.2 利用DataStream API進行數(shù)據(jù)處理 277
9.2.1 執(zhí)行環(huán)境 278
9.2.2 數(shù)據(jù)源 278
9.2.3 轉(zhuǎn)換 282
9.3 本章小結(jié) 300
第10章 大數(shù)據(jù)可視化技術(shù) 301
10.1 數(shù)據(jù)可視化簡介 301
10.2 Tableau 302
10.3 圖表類型 313
10.3.1 線狀圖 314
10.3.2 餅圖 314
10.3.3 柱狀圖 315
10.3.4 熱圖 316
10.4 基于Python的數(shù)據(jù)可視化 317
10.5 基于R的數(shù)據(jù)可視化 319
10.6 大數(shù)據(jù)可視化工具 320
10.7 本章小結(jié) 321
第11章 云計算簡介 323
11.1 概念和術(shù)語 323
11.1.1 云 323
11.1.2 IT資源 324
11.1.3 本地環(huán)境 324
11.1.4 云使用者和云供應商 324
11.1.5 擴展 324
11.2 目標和收益 325
11.2.1 可擴展性的提升 326
11.2.2 可用性和可靠性的提升 326
11.3 風險和挑戰(zhàn) 327
11.3.1 安全漏洞 327
11.3.2 減少運營治理控制 328
11.3.3 云提供商之間有限的可移植性 328
11.4 角色和邊界 328
11.4.1 云供應商 328
11.4.2 云使用者 328
11.4.3 云服務持有者 328
11.4.4 云資源管理員 329
11.5 云特征 329
11.5.1 按需使用 330
11.5.2 無處不在的訪問 330
11.5.3 多租戶機制(和資源池機制) 330
11.5.4 彈性 330
11.5.5 監(jiān)測應用狀態(tài) 330
11.5.6 彈性計算 331
11.6 云交付模型 331
11.6.1 基礎(chǔ)設施即服務 331
11.6.2 平臺即服務 331
11.6.3 軟件即服務 332
11.6.4 整合云交付模型 332
11.7 云部署模型 333
11.7.1 公共云 333
11.7.2 社區(qū)云 334
11.7.3 私有云 334
11.7.4 混合云 334
11.8 本章小結(jié) 335
第12章 使用亞馬遜Web服務 337
12.1 Amazon Elastic Compute Cloud 337
12.1.1 彈性Web計算 337
12.1.2 對操作的完整控制 338
12.1.3 靈活的云托管服務 338
12.1.4 集成 338
12.1.5 高可靠性 338
12.1.6 安全性 338
12.1.7 經(jīng)濟性 338
12.1.8 易于啟動 339
12.1.9 亞馬云及其鏡像 339
12.2 啟用多個AMI實例 340
12.2.1 實例 340
12.2.2 AMI 340
12.2.3 區(qū)域和可用區(qū) 340
12.2.4 區(qū)域和可用區(qū)概念 341
12.2.5 區(qū)域 341
12.2.6 可用區(qū) 341
12.2.7 可用區(qū)域 342
12.2.8 區(qū)域和端點 342
12.2.9 實例類型 343
12.2.10 Amazon EC2和亞馬遜虛擬私有云 343
12.3 AWS Lambda 344
12.4 Amazon S3簡介 345
12.4.1 Amazon S3功能 345
12.4.2 全面的安全和協(xié)從能力 346
12.4.3 就地查詢 346
12.4.4 靈活的管理機制 346
12.4.5 最受支持的平臺以及最大的生態(tài)系統(tǒng) 347
12.4.6 簡單、方便的數(shù)據(jù)傳輸機制 347
12.4.7 備份和恢復 347
12.4.8 數(shù)據(jù)存檔 347
12.4.9 數(shù)據(jù)湖和數(shù)據(jù)分析 348
12.4.10 混合云存儲 348
12.4.11 原生云應用程序數(shù)據(jù) 348
12.4.12 災難恢復 348
12.5 Amazon DynamoDB 349
12.6 Amazon Kinesis Data Streams 349
12.6.1 加速日志和數(shù)據(jù)提要的輸入和處理 350
12.6.2 實時度量和報告機制 350
12.6.3 實時數(shù)據(jù)分析 350
12.6.4 復雜的數(shù)據(jù)流處理 350
12.6.5 Kinesis Data Streams的優(yōu)點 350
12.7 AWS Glue 351
12.8 Amazon EMR 352
12.9 本章小結(jié) 363

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號