注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)PySpark實(shí)戰(zhàn)指南:利用Python和Spark構(gòu)建數(shù)據(jù)密集型應(yīng)用并規(guī)?;渴?/a>

PySpark實(shí)戰(zhàn)指南:利用Python和Spark構(gòu)建數(shù)據(jù)密集型應(yīng)用并規(guī)模化部署

定 價(jià):¥49.00

作 者: (美)托馬茲·卓巴斯,丹尼·李
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò) 其他

購(gòu)買這本書(shū)可以去


ISBN: 9787111582380 出版時(shí)間: 2017-11-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 186 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本文從Spark的基本特點(diǎn)出發(fā),借助大量例子詳細(xì)介紹了如何使用Python調(diào)用Spark新特性、處理結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)、使用PySpark中基本可用數(shù)據(jù)類型、生成機(jī)器學(xué)習(xí)模型、進(jìn)行圖像操作以及閱讀串流數(shù)據(jù)等新興技術(shù)內(nèi)容。

作者簡(jiǎn)介

暫缺《PySpark實(shí)戰(zhàn)指南:利用Python和Spark構(gòu)建數(shù)據(jù)密集型應(yīng)用并規(guī)?;渴稹纷髡吆?jiǎn)介

圖書(shū)目錄

Contents目  錄
譯者序

前言
關(guān)于作者
第1章 了解Spark 1
1.1 什么是Apache Spark 1
1.2 Spark作業(yè)和API 2
1.2.1 執(zhí)行過(guò)程 2
1.2.2 彈性分布式數(shù)據(jù)集 3
1.2.3 DataFrame 4
1.2.4 Dataset 5
1.2.5 Catalyst優(yōu)化器 5
1.2.6 鎢絲計(jì)劃 5
1.3 Spark 2.0的架構(gòu) 6
1.3.1 統(tǒng)一Dataset和DataFrame 7
1.3.2 SparkSession介紹 8
1.3.3 Tungsten Phase 2 8
1.3.4 結(jié)構(gòu)化流 10
1.3.5 連續(xù)應(yīng)用 10
1.4 小結(jié) 11
第2章 彈性分布式數(shù)據(jù)集 12
2.1 RDD的內(nèi)部運(yùn)行方式 12
2.2 創(chuàng)建RDD 13
2.2.1 Schema 14
2.2.2 從文件讀取 14
2.2.3 Lambda表達(dá)式 15
2.3 全局作用域和局部作用域 16
2.4 轉(zhuǎn)換 17
2.4.1 .map(...)轉(zhuǎn)換 17
2.4.2 .filter(...)轉(zhuǎn)換 18
2.4.3 .flatMap(...)轉(zhuǎn)換 18
2.4.4 .distinct(...)轉(zhuǎn)換 18
2.4.5 .sample(...)轉(zhuǎn)換 19
2.4.6 .leftOuterJoin(...)轉(zhuǎn)換 19
2.4.7 .repartition(...)轉(zhuǎn)換 20
2.5 操作 20
2.5.1 .take(...)方法 21
2.5.2 .collect(...)方法 21
2.5.3 .reduce(...)方法 21
2.5.4 .count(...)方法 22
2.5.5 .saveAsTextFile(...)方法 22
2.5.6 .foreach(...)方法 23
2.6 小結(jié) 23
第3章 DataFrame 24
3.1 Python到RDD之間的通信 24
3.2 Catalyst優(yōu)化器刷新 25
3.3 利用DataFrame加速PySpark 27
3.4 創(chuàng)建DataFrame 28
3.4.1 生成自己的JSON數(shù)據(jù) 29
3.4.2 創(chuàng)建一個(gè)DataFrame 29
3.4.3 創(chuàng)建一個(gè)臨時(shí)表 30
3.5 簡(jiǎn)單的DataFrame查詢 31
3.5.1 DataFrame API查詢 32
3.5.2 SQL查詢 32
3.6 RDD的交互操作 33
3.6.1 使用反射來(lái)推斷模式 33
3.6.2 編程指定模式 34
3.7 利用DataFrame API查詢 35
3.7.1 行數(shù) 35
3.7.2 運(yùn)行篩選語(yǔ)句 35
3.8 利用SQL查詢 36
3.8.1 行數(shù) 36
3.8.2 利用where子句運(yùn)行篩選語(yǔ)句 36
3.9 DataFrame場(chǎng)景——實(shí)時(shí)飛行性能 38
3.9.1 準(zhǔn)備源數(shù)據(jù)集 38
3.9.2 連接飛行性能和機(jī)場(chǎng) 39
3.9.3 可視化飛行性能數(shù)據(jù) 40
3.10 Spark數(shù)據(jù)集(Dataset)API 41
3.11 小結(jié) 42
第4章 準(zhǔn)備數(shù)據(jù)建模 43
4.1 檢查重復(fù)數(shù)據(jù)、未觀測(cè)數(shù)據(jù)和異常數(shù)據(jù)(離群值) 43
4.1.1 重復(fù)數(shù)據(jù) 43
4.1.2 未觀測(cè)數(shù)據(jù) 46
4.1.3 離群值 50
4.2 熟悉你的數(shù)據(jù) 51
4.2.1 描述性統(tǒng)計(jì) 52
4.2.2 相關(guān)性 54
4.3 可視化 55
4.3.1 直方圖 55
4.3.2 特征之間的交互 58
4.4 小結(jié) 60
第5章  MLlib介紹 61
5.1 包概述 61
5.2 加載和轉(zhuǎn)換數(shù)據(jù) 62
5.3 了解你的數(shù)據(jù) 65
5.3.1 描述性統(tǒng)計(jì) 66
5.3.2 相關(guān)性 67
5.3.3 統(tǒng)計(jì)測(cè)試 69
5.4 創(chuàng)建最終數(shù)據(jù)集 70
5.4.1 創(chuàng)建LabeledPoint形式的RDD 70
5.4.2 分隔培訓(xùn)和測(cè)試數(shù)據(jù) 71
5.5 預(yù)測(cè)嬰兒生存機(jī)會(huì) 71
5.5.1 MLlib中的邏輯回歸 71
5.5.2 只選擇最可預(yù)測(cè)的特征 72
5.5.3 MLlib中的隨機(jī)森林 73
5.6 小結(jié) 74
第6章 ML包介紹 75
6.1 包的概述 75
6.1.1 轉(zhuǎn)換器 75
6.1.2 評(píng)估器 78
6.1.3 管道 80
6.2 使用ML預(yù)測(cè)嬰兒生存幾率 80
6.2.1 加載數(shù)據(jù) 80
6.2.2 創(chuàng)建轉(zhuǎn)換器 81
6.2.3 創(chuàng)建一個(gè)評(píng)估器 82
6.2.4 創(chuàng)建一個(gè)管道 82
6.2.5 擬合模型 83
6.2.6 評(píng)估模型的性能 84
6.2.7 保存模型 84
6.3 超參調(diào)優(yōu) 85
6.3.1 網(wǎng)格搜索法 85
6.3.2 Train-validation 劃分 88
6.4 使用PySpark ML的其他功能 89
6.4.1 特征提取 89
6.4.2 分類 93
6.4.3 聚類 95
6.4.4 回歸 98
6.5 小結(jié) 99
第7章 GraphFrames 100
7.1 GraphFrames介紹 102
7.2 安裝GraphFrames 102
7.2.1 創(chuàng)建庫(kù) 103
7.3 準(zhǔn)備你的航班數(shù)據(jù)集 105
7.4 構(gòu)建圖形 107
7.5 執(zhí)行簡(jiǎn)單查詢 108
7.5.1 確定機(jī)場(chǎng)和航班的數(shù)量 108
7.5.2 確定這個(gè)數(shù)據(jù)集中的最長(zhǎng)延誤時(shí)間 108
7.5.3 確定延誤和準(zhǔn)點(diǎn)/早到航班的數(shù)量對(duì)比 109
7.5.4 哪一班從西雅圖出發(fā)的航班最有可能出現(xiàn)重大延誤 109
7.5.5 西雅圖出發(fā)到哪個(gè)州的航班最有可能出現(xiàn)重大延誤 110
7.6 理解節(jié)點(diǎn)的度 110
7.7 確定最大的中轉(zhuǎn)機(jī)場(chǎng) 112
7.8 理解Motif 113
7.9 使用PageRank確定機(jī)場(chǎng)排名 114
7.10 確定最受歡迎的直飛航班 115
7.11 使用廣度優(yōu)先搜索 116
7.12 使用D3將航班可視化 118
7.13 小結(jié) 119
第8章 TensorFrames 120
8.1 深度學(xué)習(xí)是什么 120
8.1.1 神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的必要性 123
8.1.2 特征工程是什么 125
8.1.3 橋接數(shù)據(jù)和算法 125
8.2 TensorFlow是什么 127
8.2.1 安裝PIP 129
8.2.2 安裝TensorFlow 129
8.2.3 使用常量進(jìn)行矩陣乘法 130
8.2.4 使用placeholder進(jìn)行矩陣乘法 131
8.2.5 討論 132
8.3 TensorFrames介紹 133
8.4 TensorFrames快速入門 134
8.4.1 配置和設(shè)置 134
8.4.2 使用TensorFlow向已有列添加常量 136
8.4.3 Blockwise reducing操作示例 137
8.5 小結(jié) 139
第9章 使用Blaze實(shí)現(xiàn)混合持久化

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)