注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件深入理解Flink:實時大數(shù)據(jù)處理實踐

深入理解Flink:實時大數(shù)據(jù)處理實踐

深入理解Flink:實時大數(shù)據(jù)處理實踐

定 價:¥89.00

作 者: 余海峰 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121360459 出版時間: 2019-04-01 包裝: 平裝
開本: 16開 頁數(shù): 304 字數(shù):  

內(nèi)容簡介

  《深入理解Flink:實時大數(shù)據(jù)處理實踐》介紹了實時數(shù)據(jù)處理引擎Flink,講解了流處理API、批處理API、機器學(xué)習(xí)引擎FlinkML、關(guān)系型API、復(fù)雜事件處理,以及指標度量與部署模式,分析了流式數(shù)據(jù)處理理論中時間、窗口、水印、觸發(fā)器、遲到生存期之間的關(guān)聯(lián)和關(guān)系,深入分析了多項式曲線擬合、分類算法、推薦算法的理論和FlinkML實現(xiàn)。 《深入理解Flink:實時大數(shù)據(jù)處理實踐》適合希望快速上手Flink 以開展實時大數(shù)據(jù)處理與在線機器學(xué)習(xí)應(yīng)用的從業(yè)者閱讀。

作者簡介

  國內(nèi)首批持牌個人征信機構(gòu)北京華道征信大數(shù)據(jù)高級架構(gòu)師、技術(shù)總監(jiān),主持同業(yè)征信事業(yè)部系統(tǒng)與數(shù)據(jù)研發(fā)工作,負責(zé)消費信貸業(yè)務(wù)系統(tǒng)架構(gòu)設(shè)計、風(fēng)控模型架構(gòu)設(shè)計、大數(shù)據(jù)風(fēng)控服務(wù)平臺架構(gòu)設(shè)計;承擔(dān)大數(shù)據(jù)與人工智能在金融領(lǐng)域應(yīng)用的研究工作。曾就職于人行征信中心應(yīng)收賬款融資登記團隊,主持央行動產(chǎn)融資登記服務(wù)系統(tǒng)與數(shù)據(jù)分析系統(tǒng)研發(fā),領(lǐng)導(dǎo)國內(nèi)動產(chǎn)融資登記服務(wù)領(lǐng)域行業(yè)門戶網(wǎng)站(中登網(wǎng))建設(shè)。

圖書目錄

第1 章 流式數(shù)據(jù)架構(gòu)理論 1
1.1 大數(shù)據(jù)處理架構(gòu)演進歷程 1
1.2 案例分析 8
1.2.1 SK 電信駕駛安全性評分 8
1.2.2 流式機器學(xué)習(xí)應(yīng)用 12
1.3 流式數(shù)據(jù)架構(gòu)基本概念 17
1.3.1 流 17
1.3.2 時間 18
1.3.3 窗口 21
1.3.4 水印 23
1.3.5 觸發(fā)器 23
1.3.6 數(shù)據(jù)處理模式 23
1.3.7 如何理解流式數(shù)據(jù)架構(gòu)的內(nèi)在機制 27
1.4 根據(jù)事件時間開滾動窗口 28
1.4.1 what:轉(zhuǎn)換/where:窗口 29
1.4.2 when:水印 29
1.4.3 when:觸發(fā)器 32
1.4.4 when:遲到生存期 34
1.4.5 how:累加模式 35
1.5 一致性 37
1.5.1 有狀態(tài)計算 37
1.5.2 exactly-once 語義 38
1.5.3 異步屏障快照 39
1.5.4 保存點 44
1.6 思考題 45
第2 章 編程基礎(chǔ) 46
2.1 Flink 概述 46
2.2 讓輪子轉(zhuǎn)起來 47
2.2.1 本書約定 47
2.2.2 搭建單機版環(huán)境 48
2.2.3 配置IDEA 51
2.3 編程模型 53
2.3.1 分層組件棧 53
2.3.2 流式計算模型 54
2.3.3 流處理編程 57
2.4 運行時 62
2.4.1 運行時結(jié)構(gòu) 62
2.4.2 任務(wù)調(diào)度 66
2.4.3 物理執(zhí)行計劃 69
2.5 思考題 70
第3 章 流處理API 71
3.1 流處理API 概述 71
3.2 時間處理 73
3.2.1 時間 73
3.2.2 水印 74
3.2.3 周期性水印生成器 75
3.2.4 間歇性水印生成器 77
3.2.5 遞增式水印生成器 78
3.3 算子 79
3.3.1 算子函數(shù) 80
3.3.2 數(shù)據(jù)分區(qū) 83
3.3.3 資源共享 85
3.3.4 RichFunction 85
3.3.5 輸出帶外數(shù)據(jù) 86
3.4 窗口 86
3.4.1 窗口分類 87
3.4.2 窗口函數(shù) 90
3.4.3 觸發(fā)器 94
3.4.4 清除器 96
3.4.5 遲到生存期 96
3.5 連接器 97
3.5.1 HDFS 連接器 98
3.5.2 Kafka 99
3.5.3 異步I/O 102
3.6 狀態(tài)管理 104
3.6.1 狀態(tài)分類 104
3.6.2 托管的Keyed State 104
3.6.3 狀態(tài)后端配置 106
3.7 檢查點 107
3.8 思考題 108
第4 章 批處理API 109
4.1 批處理API 概述. 109
4.1.1 程序結(jié)構(gòu) 110
4.1.2 Source 111
4.1.3 Sink 112
4.1.4 連接器 112
4.2 算子 113
4.2.1 算子函數(shù) 113
4.2.2 廣播變量 121
4.2.3 文件緩存 122
4.2.4 容錯 123
4.3 迭代 123
4.3.1 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練 123
4.3.2 網(wǎng)絡(luò)社團發(fā)現(xiàn)算法 125
4.3.3 Bulk Iteration 127
4.3.4 Delta Iteration 的迭代形式 128
4.4 注解 130
4.4.1 直接轉(zhuǎn)發(fā) 130
4.4.2 非直接轉(zhuǎn)發(fā) 131
4.4.3 觸達 132
4.5 思考題 132
第5 章 機器學(xué)習(xí)引擎架構(gòu)與應(yīng)用編程 133
5.1 概述 133
5.1.1 數(shù)據(jù)加載 134
5.1.2 多項式曲線擬合的例子 135
5.2 流水線 137
5.2.1 機器學(xué)習(xí)面臨的架構(gòu)問題 137
5.2.2 Scikit-learn 架構(gòu)實踐總結(jié) 138
5.2.3 FlinkML 實現(xiàn) 140
5.3 深入分析多項式曲線擬合 170
5.3.1 數(shù)值計算的底層框架 170
5.3.2 向量 172
5.3.3 數(shù)據(jù)預(yù)處理 178
5.3.4 特征變換 184
5.3.5 線性擬合 188
5.4 分類算法 190
5.4.1 最優(yōu)超平面 190
5.4.2 凸優(yōu)化理論 193
5.4.3 求解最優(yōu)超平面 198
5.4.4 核方法 200
5.4.5 軟間隔 205
5.4.6 優(yōu)化解法 208
5.4.7 SVM 的FlinkML 實現(xiàn) 211
5.4.8 SVM 的應(yīng)用 220
5.5 推薦算法 221
5.5.1 推薦系統(tǒng)的分類 221
5.5.2 ALS-WR 算法 223
5.5.3 FlinkML 實現(xiàn) 225
5.5.4 ALS-WR 的應(yīng)用 230
5.6 思考題 230
第6 章 關(guān)系型API 234
6.1 為什么需要關(guān)系型API 234
6.2 Calcite 235
6.3 關(guān)系型API 概述. 236
6.3.1 程序結(jié)構(gòu) 236
6.3.2 Table 運行時 239
6.3.3 表注冊 241
6.3.4 TableSource 與TableSink 242
6.3.5 查詢 244
6.3.6 相互轉(zhuǎn)換 244
6.4 動態(tài)表概述 247
6.4.1 流式關(guān)系代數(shù) 247
6.4.2 動態(tài)表 248
6.4.3 持續(xù)查詢 250
6.5 思考題 255
第7 章 復(fù)雜事件處理 256
7.1 什么是復(fù)雜事件處理 256
7.1.1 股票異常交易檢測 256
7.1.2 重新審視DataStream 與Table API 258
7.2 復(fù)雜事件處理的自動機理論 259
7.2.1 有窮自動機模型NFA 259
7.2.2 NFAb 模型 261
7.2.3 帶版本號的共享緩存 263
7.3 FlinkCEP API 265
7.3.1 基本模式 266
7.3.2 模式拼合 267
7.3.3 模式分組 268
7.3.4 匹配輸出 269
7.4 基于FlinkCEP 的股票異常交易檢測的實現(xiàn) 270
7.5 思考題 274
第8 章 監(jiān)控與部署 275
8.1 監(jiān)控 275
8.1.1 度量指標 275
8.1.2 指標的作用域 279
8.1.3 監(jiān)控配置 279
8.2 集群部署模式 281
8.2.1 Standalone 281
8.2.2 YARN 281
8.2.3 高可用 284
8.3 訪問安全 284
8.4 思考題 286
參考資料 287

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號