注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐

Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐

Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐

定 價(jià):¥69.00

作 者: [美] 穆罕默德·古勒 著;趙斌 馬景 陳冠誠(chéng) 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書(shū)
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111565611 出版時(shí)間: 2017-05-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 249 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)是關(guān)于大數(shù)據(jù)和Spark的一個(gè)簡(jiǎn)明手冊(cè)。它將助你學(xué)習(xí)如何用Spark來(lái)完成很多大數(shù)據(jù)分析任務(wù),其中覆蓋了高效利用Spark所需要知道的重要主題:如何使用SparkShell進(jìn)行交互式數(shù)據(jù)分析、如何編寫(xiě)Spark應(yīng)用、如何在Spark中對(duì)大規(guī)模數(shù)據(jù)進(jìn)行交互分析、如何使用SparkStreaming處理高速數(shù)據(jù)流、如何使用Spark進(jìn)行機(jī)器學(xué)習(xí)、如何使用Spark進(jìn)行圖處理、如何使用集群管理員部署Spark、如何監(jiān)控Spark應(yīng)用等。本書(shū)還對(duì)其他配合Spark一起使用的大數(shù)據(jù)技術(shù)進(jìn)行了介紹,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書(shū)也對(duì)機(jī)器學(xué)習(xí)和圖的概念進(jìn)行了介紹。

作者簡(jiǎn)介

暫缺《Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐》作者簡(jiǎn)介

圖書(shū)目錄

Contents 目  錄
譯者序
前言
致謝
第1章 大數(shù)據(jù)技術(shù)一覽1
1.1 Hadoop2
1.1.1 HDFS3
1.1.2 MapReduce5
1.1.3 Hive5
1.2 數(shù)據(jù)序列化6
1.2.1 Avro6
1.2.2 Thrift6
1.2.3 Protocol Buffers7
1.2.4 SequenceFile7
1.3 列存儲(chǔ)7
1.3.1 RCFile8
1.3.2 ORC8
1.3.3 Parquet9
1.4 消息系統(tǒng)9
1.4.1 Kafka10
1.4.2 ZeroMQ11
1.5 NoSQL12
1.5.1 Cassandra13
1.5.2 HBase13
1.6 分布式SQL查詢引擎14
1.6.1 Impala14
1.6.2 Presto14
1.6.3 Apache Drill15
1.7 總結(jié)15
第2章 Scala編程16
2.1 函數(shù)式編程16
2.1.1 函數(shù)17
2.1.2 不可變數(shù)據(jù)結(jié)構(gòu)18
2.1.3 一切皆表達(dá)式19
2.2 Scala基礎(chǔ)19
2.2.1 起步20
2.2.2 基礎(chǔ)類(lèi)型20
2.2.3 變量21
2.2.4 函數(shù)21
2.2.5 類(lèi)24
2.2.6 單例24
2.2.7 樣本類(lèi)25
2.2.8 模式匹配25
2.2.9 操作符26
2.2.10 特質(zhì)26
2.2.11 元組27
2.2.12 Option類(lèi)型27
2.2.13 集合28
2.3 一個(gè)單獨(dú)的Scala應(yīng)用程序32
2.4 總結(jié)32
第3章 Spark Core33
3.1 概述33
3.1.1 主要特點(diǎn)33
3.1.2 理想的應(yīng)用程序36
3.2 總體架構(gòu)37
3.2.1 worker37
3.2.2 集群管理員38
3.2.3 驅(qū)動(dòng)程序38
3.2.4 執(zhí)行者38
3.2.5 任務(wù)38
3.3 應(yīng)用運(yùn)行38
3.3.1 術(shù)語(yǔ)38
3.3.2 應(yīng)用運(yùn)行過(guò)程39
3.4 數(shù)據(jù)源39
3.5 API40
3.5.1 SparkContext40
3.5.2 RDD41
3.5.3 創(chuàng)建RDD42
3.5.4 RDD操作43
3.5.5 保存RDD52
3.6 惰性操作53
3.7 緩存54
3.7.1 RDD的緩存方法55
3.7.2 RDD緩存是可容錯(cuò)的56
3.7.3 緩存內(nèi)存管理56
3.8 Spark作業(yè)56
3.9 共享變量57
3.9.1 廣播變量57
3.9.2 累加器58
3.10 總結(jié)59
第4章 使用Spark shell進(jìn)行交互式數(shù)據(jù)分析60
4.1 起步60
4.1.1 下載60
4.1.2 解壓61
4.1.3 運(yùn)行61
4.2 REPL命令62
4.3 把Spark shell當(dāng)成Scala shell使用62
4.4 數(shù)值分析63
4.5 日志分析64
4.6 總結(jié)68
第5章 編寫(xiě)Spark應(yīng)用69
5.1 Spark中的Hello World69
5.2 編譯并運(yùn)行應(yīng)用72
5.2.1 sbt72
5.2.2 編譯代碼73
5.2.3 運(yùn)行應(yīng)用73
5.3 監(jiān)控應(yīng)用75
5.4 調(diào)試應(yīng)用75
5.5 總結(jié)76
第6章 Spark Streaming77
6.1 Spark Streaming簡(jiǎn)介78
6.1.1 Spark Streaming是一個(gè)Spark類(lèi)庫(kù)78
6.1.2 總體架構(gòu)78
6.1.3 數(shù)據(jù)流來(lái)源78
6.1.4 接收器79
6.1.5 目的地79
6.2 API79
6.2.1 StreamingContext80
6.2.2 Spark Streaming應(yīng)用基本結(jié)構(gòu)82
6.2.3 DStream82
6.2.4 創(chuàng)建DStream83
6.2.5 處理數(shù)據(jù)流84
6.2.6 輸出操作88
6.2.7 窗口操作91
6.3 一個(gè)完整的Spark Streaming應(yīng)用93
6.4 總結(jié)98
第7章 Spark SQL99
7.1 Spark SQL簡(jiǎn)介99
7.1.1 和其他Spark庫(kù)集成100
7.1.2 可用性100
7.1.3 數(shù)據(jù)源100
7.1.4 數(shù)據(jù)處理接口100
7.1.5 與Hive的互操作性101
7.2 性能101
7.2.1 磁盤(pán)I/O101
7.2.2 分區(qū)102
7.2.3 列存儲(chǔ)102
7.2.4 內(nèi)存中的列式緩存102
7.2.5 行跳過(guò)102
7.2.6 謂詞下推102
7.2.7 查詢優(yōu)化103
7.3 應(yīng)用104
7.3.1 ETL104
7.3.2 數(shù)據(jù)可視化104
7.3.3 分布式JDBC/ODBC SQL查詢引擎105
7.3.4 數(shù)據(jù)倉(cāng)庫(kù)105
7.4 API106
7.4.1 關(guān)鍵抽象106
7.4.2 創(chuàng)建DataFrame109
7.4.3 在程序中使用SQL/HiveQL處理數(shù)據(jù)114
7.4.4 使用DataFrame API處理數(shù)據(jù)115
7.4.5 保存DataFrame131
7.5 內(nèi)置函數(shù)133
7.5.1 聚合操作134
7.5.2 集合操作134
7.5.3 日期/時(shí)間134
7.5.4 數(shù)學(xué)135
7.5.5 字符串135
7.5.6 窗口135
7.6 UDF和UDAF135
7.7 一個(gè)交互式分析的例子135
7.8 使用Spark SQL JDBC服務(wù)器進(jìn)行交互式分析142
7.9 總結(jié)145
第8章 使用Spark進(jìn)行機(jī)器學(xué)習(xí)146
8.1 機(jī)器學(xué)習(xí)簡(jiǎn)介146
8.1.1 特征147
8.1.2 標(biāo)簽147
8.1.3 模型148
8.1.4 訓(xùn)練數(shù)據(jù)148
8.1.5 測(cè)試數(shù)據(jù)149
8.1.6 機(jī)器學(xué)習(xí)應(yīng)用149
8.1.7 機(jī)器學(xué)習(xí)算法151
8.1.8 超參數(shù)160
8.1.9 模型評(píng)價(jià)160
8.1.10 機(jī)器學(xué)習(xí)的主要步驟162
8.2 Spark機(jī)器學(xué)習(xí)庫(kù)162
8.3 MLlib概覽163
8.3.1 與其他Spark庫(kù)集成163
8.3.2 統(tǒng)計(jì)工具163
8.3.3 機(jī)器學(xué)習(xí)算法163
8.4 MLlib API164
8.4.1 數(shù)據(jù)類(lèi)型164
8.4.2 算法和模型166
8.4.3 模型評(píng)價(jià)181
8.5 MLlib示例應(yīng)用184
8.5.1 數(shù)據(jù)集184
8.5.2 目標(biāo)184
8.5.3 代碼184
8.6 Spark ML186
8.6.1 ML數(shù)據(jù)集187
8.6.2 Transformer187
8.6.3 Estimator187
8.6.4 Pipeline188
8.6.5 PipelineModel188
8.6.6 Evaluator188
8.6.7 網(wǎng)格搜索189
8.6.8 CrossValidator189
8.7 Spark ML示例應(yīng)用189
8.7.1 數(shù)據(jù)集190
8.7.2 目標(biāo)190
8.7.3 代碼190
8.8 總結(jié)195
第9章 使用Spark進(jìn)行圖處理196
9.1 圖簡(jiǎn)介196
9.1.1 無(wú)向圖197
9.1.2 有向圖197
9.1.3 有向多邊圖197
9.1.4 屬性圖197
9.2 GraphX簡(jiǎn)介198
9.3 GraphX API199
9.3.1 數(shù)據(jù)抽象199
9.3.2 創(chuàng)建圖200
9.3.3 圖屬性202
9.3.4 圖操作符204
9.4 總結(jié)217
第10章 集群管理員218

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)