注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡網(wǎng)絡與數(shù)據(jù)通信網(wǎng)絡服務大數(shù)據(jù)湖最佳實踐

大數(shù)據(jù)湖最佳實踐

大數(shù)據(jù)湖最佳實踐

定 價:¥68.00

作 者: Alex Gorelik
出版社: 中國電力出版社
叢編項:
標 簽: 暫缺

ISBN: 9787519845902 出版時間: 2020-07-01 包裝:
開本: 16開 頁數(shù): 240 字數(shù):  

內容簡介

  l數(shù)據(jù)倉庫、大數(shù)據(jù)、數(shù)據(jù)科學的簡單介紹。 l了解企業(yè)建立數(shù)據(jù)湖的各種途徑。 l探索如何構建自助服務模型,以及如何讓分析師便捷訪問數(shù)據(jù)的最佳實踐。 l使用不同的方法來構建數(shù)據(jù)湖。 l了解不同行業(yè)專家實現(xiàn)數(shù)據(jù)湖的方法。

作者簡介

  Alex Gorelik是Waterline Data的首席技術官和創(chuàng)始人,也是三家初創(chuàng)公司的創(chuàng)始人。他曾經(jīng)擔任Informatica的數(shù)據(jù)質量部經(jīng)理,負責管理公司的平臺和數(shù)據(jù)集成技術。此外,他還曾是IBM杰出的工程師,也是Exeros和Acta Technology的聯(lián)合創(chuàng)始人、首席技術官和工程副總裁。

圖書目錄

前言 1

第1 章 數(shù)據(jù)湖概述 7

數(shù)據(jù)湖的成熟度 9

數(shù)據(jù)水洼  11

數(shù)據(jù)池  12

創(chuàng)建成功的數(shù)據(jù)湖  12

適合的平臺 13

適合的數(shù)據(jù) 14

適合的界面 16

數(shù)據(jù)沼澤  18

成功實施數(shù)據(jù)湖的路線圖  20

建立數(shù)據(jù)湖 20

規(guī)劃數(shù)據(jù)湖 21

構建自助服務的數(shù)據(jù)湖  23

構建數(shù)據(jù)湖  28

云上數(shù)據(jù)湖 29

邏輯數(shù)據(jù)湖 29

小結  34

第2 章 歷史背景 35

數(shù)據(jù)自助服務驅動——數(shù)據(jù)庫的誕生  36

分析必要性驅動——數(shù)據(jù)倉庫的誕生  39

數(shù)據(jù)倉庫生態(tài)系統(tǒng)  40

存儲和查詢數(shù)據(jù)  41

加載數(shù)據(jù)——數(shù)據(jù)集成工具  47

組織和管理數(shù)據(jù)  51

消費數(shù)據(jù)  57

小結  58

第3 章 大數(shù)據(jù)和數(shù)據(jù)科學概述 59

Hadoop 引領大數(shù)據(jù)的歷史性轉變  60

Hadoop 文件系統(tǒng)  60

MapReduce 作業(yè)中計算和存儲如何交互  61

Schema on Read  63

Hadoop 項目  64

數(shù)據(jù)科學  65

你的分析機構應該關注什么?  67

機器學習  71

可解釋性  72

變更管理  73

小結  74

第4 章 建立數(shù)據(jù)湖 75

為什么是Hadoop 75

防止數(shù)據(jù)水洼擴散  78

利用大數(shù)據(jù)的優(yōu)勢  79

以數(shù)據(jù)科學為先導  80

策略1: 遷移已有功能  83

策略2: 為新項目建立數(shù)據(jù)湖  85

策略3: 建立數(shù)據(jù)治理中心  85

哪種策略最適合你?  86

小結  88

第5 章 從數(shù)據(jù)池/ 大數(shù)據(jù)倉庫到數(shù)據(jù)湖 89

數(shù)據(jù)倉庫的基本功能  90

用于分析的維度模型  91

整合不同源的數(shù)據(jù)  92

使用緩慢變化維保存歷史記錄  93

數(shù)據(jù)倉庫作為歷史庫的局限性  93

遷移至數(shù)據(jù)池  94

數(shù)據(jù)池中保存歷史數(shù)據(jù)  94

在數(shù)據(jù)池中使用緩慢變化維  96

數(shù)據(jù)池演化為數(shù)據(jù)湖——加載數(shù)據(jù)倉庫中未包含的數(shù)據(jù)  98

原始數(shù)據(jù)  98

外部數(shù)據(jù)  99

IoT 與其他流式數(shù)據(jù)  102

實時數(shù)據(jù)湖  103

Lambda 架構  105

數(shù)據(jù)轉換  106

目標系統(tǒng)  108

數(shù)據(jù)倉庫  109

業(yè)務數(shù)據(jù)存儲  109

實時應用和數(shù)據(jù)產(chǎn)品  110

小結  111

第6 章 自助服務優(yōu)化  112

自助服務起源  113

業(yè)務分析師  115

發(fā)現(xiàn)和理解數(shù)據(jù)——企業(yè)數(shù)據(jù)歸檔  116

建立信任  119

數(shù)據(jù)預置  126

為分析準備數(shù)據(jù)  128

數(shù)據(jù)湖數(shù)據(jù)整理  129

用Hadoop 來準備數(shù)據(jù)  129

數(shù)據(jù)預處理的常見案例  130

分析和可視化  133

自助式商業(yè)智能的新世界  133

新的分析工作流  134

門衛(wèi)向店主的角色轉變  136

管理自助服務  137

小結  137

第7 章 數(shù)據(jù)湖架構  139

規(guī)劃數(shù)據(jù)湖  139

原始區(qū)  141

產(chǎn)品區(qū)  142

工作區(qū)  144

敏感區(qū)  145

多數(shù)據(jù)湖  146

保持各數(shù)據(jù)湖獨立的優(yōu)勢  147

合并多數(shù)據(jù)湖的優(yōu)勢  147

云上數(shù)據(jù)湖  148

虛擬數(shù)據(jù)湖  151

數(shù)據(jù)聯(lián)邦  151

大數(shù)據(jù)虛擬化  152

消除冗余  154

小結  156

第8 章 數(shù)據(jù)湖元數(shù)據(jù)  157

組織數(shù)據(jù)  157

技術元數(shù)據(jù) 159

業(yè)務元數(shù)據(jù) 164

打標  166

自動編目  167

邏輯數(shù)據(jù)管理  169

敏感數(shù)據(jù)管理和訪問控制  169

數(shù)據(jù)質量  170

連接分散的數(shù)據(jù)  172

建立血緣關系  174

數(shù)據(jù)預置  176

創(chuàng)建目錄的工具  176

工具對比  177

數(shù)據(jù)洋  178

小結  179

第9 章 數(shù)據(jù)訪問控制  180

授權與訪問控制  181

基于標簽的控制策略  182

數(shù)據(jù)脫敏  186

數(shù)據(jù)主權與法規(guī)  189

自助服務訪問管理  191

預置數(shù)據(jù)  196

小結  204

第10 章 行業(yè)案例  205

金融服務大數(shù)據(jù)  206

消費者、數(shù)字化和數(shù)據(jù)正在改變我們所熟知的金融行業(yè)  206

拯救銀行  208

新數(shù)據(jù)提供新機遇  212

使用數(shù)據(jù)湖的關鍵過程  215

數(shù)據(jù)湖為金融服務領域帶來的價值  218

保險行業(yè)中的數(shù)據(jù)湖  220

智慧城市  222

醫(yī)療大數(shù)據(jù)  224

作者介紹  227

封面介紹  227


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號