日韩成人精品福利网在线观看,2024av天堂网

內(nèi)容簡介

　　本書由 Spark 開發(fā)者及核心成員共同打造，講解了網(wǎng)絡(luò)大數(shù)據(jù)時代應(yīng)運而生的、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark，它帶領(lǐng)讀者快速掌握用 Spark 收集、計算、簡化和保存海量數(shù)據(jù)的方法，學(xué)會交互、迭代和增量式分析，解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題。

作者簡介

　　Holden Karau是Databricks的軟件開發(fā)工程師，活躍于開源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。Andy Konwinski是Databricks聯(lián)合創(chuàng)始人，Apache Spark項目技術(shù)專家，還是Apache Mesos項目的聯(lián)合發(fā)起人。Patrick Wendell是Databricks聯(lián)合創(chuàng)始人，也是Apache Spark項目技術(shù)專家。他還負責(zé)維護Spark核心引擎的幾個子系統(tǒng)。Matei Zaharia是Databricks的CTO，同時也是Apache Spark項目發(fā)起人以及Apache基金會副主席。

圖書目錄

目錄
推薦序　　xi
譯者序　　xiv
序　　xvi
前言　　xvii
第1章　Spark數(shù)據(jù)分析導(dǎo)論　　1
1.1　Spark是什么　　1
1.2　一個大一統(tǒng)的軟件?！　?
1.2.1　Spark Core　　2
1.2.2　Spark SQL　　3
1.2.3　Spark Streaming　　3
1.2.4　MLlib　　3
1.2.5　GraphX　　3
1.2.6　集群管理器　　4
1.3　Spark的用戶和用途　　4
1.3.1　數(shù)據(jù)科學(xué)任務(wù)　　4
1.3.2　數(shù)據(jù)處理應(yīng)用　　5
1.4　Spark簡史　　5
1.5　Spark的版本和發(fā)布　　6
1.6　Spark的存儲層次　　6
第2章　Spark下載與入門　　7
2.1　下載Spark　　7
2.2　Spark中Python和Scala的shell　　9
2.3　Spark 核心概念簡介　　12
2.4　獨立應(yīng)用　　14
2.4.1　初始化SparkContext　　15
2.4.2　構(gòu)建獨立應(yīng)用　　16
2.5　總結(jié)　　19
第3章　RDD編程　　21
3.1　RDD基礎(chǔ)　　21
3.2　創(chuàng)建RDD　　23
3.3　RDD操作　　24
3.3.1　轉(zhuǎn)化操作　　24
3.3.2　行動操作　　26
3.3.3　惰性求值　　27
3.4　向Spark傳遞函數(shù)　　27
3.4.1　Python　　27
3.4.2　Scala　　28
3.4.3　Java　　29
3.5　常見的轉(zhuǎn)化操作和行動操作　　30
3.5.1　基本RDD　　30
3.5.2　在不同RDD類型間轉(zhuǎn)換　　37
3.6　持久化( 緩存)　　39
3.7　總結(jié)　　40
第4章　鍵值對操作　　41
4.1　動機　　41
4.2　創(chuàng)建Pair RDD　　42
4.3　Pair RDD的轉(zhuǎn)化操作　　42
4.3.1　聚合操作　　45
4.3.2　數(shù)據(jù)分組　　49
4.3.3　連接　　50
4.3.4　數(shù)據(jù)排序　　51
4.4　Pair RDD的行動操作　　52
4.5　數(shù)據(jù)分區(qū)（進階）　　52
4.5.1　獲取RDD的分區(qū)方式　　55
4.5.2　從分區(qū)中獲益的操作　　56
4.5.3　影響分區(qū)方式的操作　　57
4.5.4　示例：PageRank　　57
4.5.5　自定義分區(qū)方式　　59
4.6　總結(jié)　　61
第5章　數(shù)據(jù)讀取與保存　　63
5.1　動機　　63
5.2　文件格式　　64
5.2.1　文本文件　　64
5.2.2　JSON　　66
5.2.3　逗號分隔值與制表符分隔值　　68
5.2.4　SequenceFile　　71
5.2.5　對象文件　　73
5.2.6　Hadoop輸入輸出格式　　73
5.2.7　文件壓縮　　77
5.3　文件系統(tǒng)　　78
5.3.1　本地/“常規(guī)”文件系統(tǒng)　　78
5.3.2　Amazon S3　　78
5.3.3　HDFS　　79
5.4　Spark SQL中的結(jié)構(gòu)化數(shù)據(jù)　　79
5.4.1　Apache Hive　　80
5.4.2　JSON　　80
5.5　數(shù)據(jù)庫　　81
5.5.1　Java數(shù)據(jù)庫連接　　81
5.5.2　Cassandra　　82
5.5.3　HBase　　84
5.5.4　Elasticsearch　　85
5.6　總結(jié)　　86
第6章　Spark編程進階　　87
6.1　簡介　　87
6.2　累加器　　88
6.2.1　累加器與容錯性　　90
6.2.2　自定義累加器　　91
6.3　廣播變量　　91
6.4　基于分區(qū)進行操作　　94
6.5　與外部程序間的管道　　96
6.6　數(shù)值RDD 的操作　　99
6.7　總結(jié)　　100
第7章　在集群上運行Spark　　101
7.1　簡介　　101
7.2　Spark運行時架構(gòu)　　101
7.2.1　驅(qū)動器節(jié)點　　102
7.2.2　執(zhí)行器節(jié)點　　103
7.2.3　集群管理器　　103
7.2.4　啟動一個程序　　104
7.2.5　小結(jié)　　104
7.3　使用spark-submit 部署應(yīng)用　　105
7.4　打包代碼與依賴　　107
7.4.1　使用Maven構(gòu)建的用Java編寫的Spark應(yīng)用　　108
7.4.2　使用sbt構(gòu)建的用Scala編寫的Spark應(yīng)用　　109
7.4.3　依賴沖突　　 111
7.5　Spark應(yīng)用內(nèi)與應(yīng)用間調(diào)度　　111
7.6　集群管理器　　112
7.6.1　獨立集群管理器　　112
7.6.2　Hadoop YARN　　115
7.6.3　Apache Mesos　　116
7.6.4　Amazon EC2　　117
7.7　選擇合適的集群管理器　　120
7.8　總結(jié)　　121
第8章　Spark調(diào)優(yōu)與調(diào)試　　123
8.1　使用SparkConf配置Spark　　123
8.2　Spark執(zhí)行的組成部分：作業(yè)、任務(wù)和步驟　　127
8.3　查找信息　　131
8.3.1　Spark網(wǎng)頁用戶界面　　131
8.3.2　驅(qū)動器進程和執(zhí)行器進程的日志　　134
8.4　關(guān)鍵性能考量　　135
8.4.1　并行度　　135
8.4.2　序列化格式　　136
8.4.3　內(nèi)存管理　　137
8.4.4　硬件供給　　138
8.5　總結(jié)　　139
第9章　Spark SQL　　141
9.1　連接Spark SQL　　142
9.2　在應(yīng)用中使用Spark SQL　　144
9.2.1　初始化Spark SQL　　144
9.2.2　基本查詢示例　　145
9.2.3　SchemaRDD　　146
9.2.4　緩存　　148
9.3　讀取和存儲數(shù)據(jù)　　149
9.3.1　Apache Hive　　149
9.3.2　Parquet　　150
9.3.3　JSON　　150
9.3.4　基于RDD　　152
9.4　JDBC/ODBC服務(wù)器　　153
9.4.1　使用Beeline　　155
9.4.2　長生命周期的表與查詢　　156
9.5　用戶自定義函數(shù)　　156
9.5.1　Spark SQL UDF　　156
9.5.2　Hive UDF　　157
9.6　Spark SQL性能　　158
9.7　總結(jié)　　159
第10章　Spark Streaming　　161
10.1　一個簡單的例子　　162
10.2　架構(gòu)與抽象　　164
10.3　轉(zhuǎn)化操作　　167
10.3.1　無狀態(tài)轉(zhuǎn)化操作　　167
10.3.2　有狀態(tài)轉(zhuǎn)化操作　　169
10.4　輸出操作　　173
10.5　輸入源　　175
10.5.1　核心數(shù)據(jù)源　　175
10.5.2　附加數(shù)據(jù)源　　176
10.5.3　多數(shù)據(jù)源與集群規(guī)?！　?79
10.6　24/7不間斷運行　　180
10.6.1　檢查點機制　　180
10.6.2　驅(qū)動器程序容錯　　181
10.6.3　工作節(jié)點容錯　　182
10.6.4　接收器容錯　　182
10.6.5　處理保證　　183
10.7　Streaming用戶界面　　183
10.8　性能考量　　184
10.8.1　批次和窗口大小　　184
10.8.2　并行度　　184
10.8.3　垃圾回收和內(nèi)存使用　　185
10.9　總結(jié)　　185
第11章　基于MLlib的機器學(xué)習(xí)　　187
11.1　概述　　187
11.2　系統(tǒng)要求　　188
11.3　機器學(xué)習(xí)基礎(chǔ)　　189
11.4　數(shù)據(jù)類型　　192
11.5　算法　　194
11.5.1　特征提取　　194
11.5.2　統(tǒng)計　　196
11.5.3　分類與回歸　　197
11.5.4　聚類　　202
11.5.5　協(xié)同過濾與推薦　　203
11.5.6　降維　　204
11.5.7　模型評估　　206
11.6　一些提示與性能考量　　206
11.6.1　準備特征　　206
11.6.2　配置算法　　207
11.6.3　緩存RDD以重復(fù)使用　　207
11.6.4　識別稀疏程度　　207
11.6.5　并行度　　207
11.7　流水線API　　208
11.8　總結(jié)　　209
作者簡介　　210
封面介紹　　210

作　者：	（美）卡勞（Holden Karau）（美）肯維尼斯科（Andy Konwinski）（美）溫德爾（Patrick Wendell）（加）扎哈里亞（Matei Zaharia）
出版社：	人民郵電出版社
叢編項：
標　簽：	計算機/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)庫

ISBN：	9787115403094	出版時間：	2015-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	210	字數(shù)：

Spark快速大數(shù)據(jù)分析

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

老年人學(xué)智能手機

左手Excel右手Tableau數(shù)據(jù)分析可…

FrontPage

五筆字型完全自學(xué)手冊（雙色版）…

和秋葉一起學(xué)Word Excel PPT Ch…

文檔處理與排版標準教程（Word+…

漫畫Excel數(shù)據(jù)分析

輕松上網(wǎng)任我行

健康上網(wǎng)

數(shù)字城市 IIDigital cities II…