久久九九久2025精品国产,激情婷婷丁香综合五月综合狠狠

內(nèi)容簡介

　　本書概要介紹了如何使用Hadoop和Spark處理數(shù)據(jù)科學涉及的一系列主題：數(shù)據(jù)提取、數(shù)據(jù)再加工（datamunging，通常包含數(shù)據(jù)清洗和整合）、特征提取、機器學習、預測建模、異常檢測和自然語言處理。整書側(cè)重于具體的例子，并通過不同方式來提供對商業(yè)價值的洞察，全書共分三部分，第一部分包括第1、2、3章，第二部分包括第4、5、6章，第三部分包括第7、8、9、10、11、12章，后在附錄中提供了本書參考材料。

作者簡介

　　Ofer Mendelevitch是Lendup公司的數(shù)據(jù)科學副總裁，領(lǐng)導著Lendup的機器學習和高級分析小組。之前，Ofer是Hortonworks的數(shù)據(jù)科學總監(jiān)，負責幫助Hortonwork的客戶使用Hadoop和Spark將數(shù)據(jù)科學應用于醫(yī)療保健、金融、零售和其他行業(yè)。Casey Stella是Hortonworks的首席數(shù)據(jù)科學家，領(lǐng)導著正在孵化開源Apache Metron這個網(wǎng)絡安全項目的分析和數(shù)據(jù)科學團隊。之前，Casey是Explorys這家醫(yī)學信息學公司的架構(gòu)師。

圖書目錄

目　　錄
譯者序
序
前言
致謝
關(guān)于作者
第一部分　Hadoop中的數(shù)據(jù)科學概覽
第1章　數(shù)據(jù)科學概述2
1.1　數(shù)據(jù)科學究竟是什么2
1.2　示例：搜索廣告3
1.3　數(shù)據(jù)科學史一瞥4
1.3.1　統(tǒng)計學與機器學習4
1.3.2　互聯(lián)網(wǎng)巨頭的創(chuàng)新5
1.3.3　現(xiàn)代企業(yè)中的數(shù)據(jù)科學6
1.4　數(shù)據(jù)科學家的成長之路6
1.4.1　數(shù)據(jù)工程師7
1.4.2　應用科學家7
1.4.3　過渡到數(shù)據(jù)科學家角色8
1.4.4　數(shù)據(jù)科學家的軟技能9
1.5　數(shù)據(jù)科學團隊的組建10
1.6　數(shù)據(jù)科學項目的生命周期11
1.6.1　問正確的問題11
1.6.2　數(shù)據(jù)攝取12
1.6.3　數(shù)據(jù)清洗：注重數(shù)據(jù)質(zhì)量12
1.6.4　探索數(shù)據(jù)和設計模型特征13
1.6.5　構(gòu)建和調(diào)整模型13
1.6.6　部署到生產(chǎn)環(huán)境14
1.7　數(shù)據(jù)科學項目的管理14
1.8　小結(jié)15
第2章　數(shù)據(jù)科學用例16
2.1　大數(shù)據(jù)—變革的驅(qū)動力16
2.1.1　容量：更多可用數(shù)據(jù)17
2.1.2　多樣性：更多數(shù)據(jù)類型17
2.1.3　速度：快速數(shù)據(jù)攝取18
2.2　商業(yè)用例18
2.2.1　產(chǎn)品推薦18
2.2.2　客戶流失分析19
2.2.3　客戶細分19
2.2.4　銷售線索的優(yōu)先級20
2.2.5　情感分析20
2.2.6　欺詐檢測21
2.2.7　預測維護22
2.2.8　購物籃分析22
2.2.9　預測醫(yī)學診斷23
2.2.10　預測患者再入院23
2.2.11　檢測異常訪問24
2.2.12　保險風險分析24
2.2.13　預測油氣井生產(chǎn)水平24
2.3　小結(jié)25
第3章　Hadoop與數(shù)據(jù)科學26
3.1　Hadoop 究竟為何物26
3.1.1　分布式文件系統(tǒng)27
3.1.2　資源管理器和調(diào)度程序28
3.1.3　分布式數(shù)據(jù)處理框架29
3.2　Hadoop的演進歷史31
3.3　數(shù)據(jù)科學的Hadoop工具32
3.3.1　Apache Sqoop33
3.3.2　Apache Flume33
3.3.3　Apache Hive34
3.3.4　Apache Pig35
3.3.5　Apache Spark36
3.3.6　R37
3.3.7　Python38
3.3.8　Java機器學習軟件包39
3.4　Hadoop為何對數(shù)據(jù)科學家有用39
3.4.1　成本有效的存儲39
3.4.2　讀取模式40
3.4.3　非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)40
3.4.4　多語言工具41
3.4.5　強大的調(diào)度和資源管理功能41
3.4.6　分布式系統(tǒng)抽象分層42
3.4.7　可擴展的模型創(chuàng)建42
3.4.8　模型的可擴展應用43
3.5　小結(jié)43
第二部分　用Hadoop準備和可視化數(shù)據(jù)
第4章　將數(shù)據(jù)導入Hadoop46
4.1　Hadoop數(shù)據(jù)湖46
4.2　Hadoop分布式文件系統(tǒng)47
4.3　直接傳輸文件到 HDFS48
4.4　將數(shù)據(jù)從文件導入Hive表49
4.5　使用Spark將數(shù)據(jù)導入Hive表52
4.5.1　使用Spark將CSV文件導入Hive52
4.5.2　使用Spark將JSON文件導入Hive54
4.6　使用Apache Sqoop獲取關(guān)系數(shù)據(jù)55
4.6.1　使用Sqoop導入和導出數(shù)據(jù)55
4.6.2　Apache Sqoop版本更改56
4.6.3　使用Sqoop版本2：基本示例57
4.7　使用Apache Flume獲取數(shù)據(jù)流63
4.8　使用Apache Oozie管理Hadoop工作和數(shù)據(jù)流67
4.9　Apache Falcon68
4.10　數(shù)據(jù)攝取的下一步是什么69
4.11　小結(jié)70
第5章　使用 Hadoop 進行數(shù)據(jù)再加工 71
5.1　為什么選擇Hadoop做數(shù)據(jù)再加工72
5.2　數(shù)據(jù)質(zhì)量72
5.2.1　什么是數(shù)據(jù)質(zhì)量72
5.2.2　處理數(shù)據(jù)質(zhì)量問題73
5.2.3　使用Hadoop進行數(shù)據(jù)質(zhì)量控制76
5.3　特征矩陣78
5.3.1　選擇“正確”的特征78
5.3.2　抽樣：選擇實例79
5.3.3　生成特征80
5.3.4　文本特征81
5.3.5　時間序列特征84
5.3.6　來自復雜數(shù)據(jù)類型的特征84
5.3.7　特征操作85
5.3.8　降維86
5.4　小結(jié)88
第6章　探索和可視化數(shù)據(jù)89
6.1　為什么要可視化數(shù)據(jù)89
6.1.1　示例：可視化網(wǎng)絡吞吐量89
6.1.2　想象未曾發(fā)生的突破92
6.2　創(chuàng)建可視化93
6.2.1　對比圖94
6.2.2　組成圖96
6.2.3　分布圖98
6.2.4　關(guān)系圖99
6.3　針對數(shù)據(jù)科學使用可視化101
6.4　流行的可視化工具101
6.4.1　R101
6.4.2　Python：Matplotlib、Seaborn和其他102
6.4.3　SAS102
6.4.4　Matlab103
6.4.5　Julia103
6.4.6　其他可視化工具103
6.5　使用Hadoop可視化大數(shù)據(jù)103
6.6　小結(jié)104
第三部分　使用Hadoop進行數(shù)據(jù)建模
第7章　Hadoop與機器學習106
7.1　機器學習概述106
7.2　術(shù)語107
7.3　機器學習中的任務類型107
7.4　大數(shù)據(jù)和機器學習108
7.5　機器學習工具109
7.6　機器學習和人工智能的未來110
7.7　小結(jié)110
第8章　預測建模111
8.1　預測建模概述111
8.2　分類與回歸112
8.3　評估預測模型113
8.3.1　評估分類器114
8.3.2　評估回歸模型116
8.3.3　交叉驗證117
8.4　有監(jiān)督學習算法117
8.5　構(gòu)建大數(shù)據(jù)預測模型的解決方案118
8.5.1　模型訓練118
8.5.2　批量預測120
8.5.3　實時預測120
8.6　示例：情感分析121
8.6.1　推文數(shù)據(jù)集121
8.6.2　數(shù)據(jù)準備122
8.6.3　特征生成122
8.6.4　建立一個分類器125
8.7　小結(jié)126
第9章　聚類127
9.1　聚類概述127
9.2　聚類的使用128
9.3　設計相似性度量128
9.3.1　距離函數(shù)129
9.3.2　相似函數(shù)129
9.4　聚類算法130
9.5　示例：聚類算法131
9.5.1　k均值聚類131
9.5.2　LDA131
9.6　評估聚類和選擇集群數(shù)量132
9.7　構(gòu)建大數(shù)據(jù)集群解決方案133
9.8　示例：使用LDA進行主題建模134
9.8.1　特征生成135
9.8.2　運行 LDA136
9.9　小結(jié)137

作　者：	[美] 凱西·斯特拉著，唐金川譯
出版社：	機械工業(yè)出版社
叢編項：	數(shù)據(jù)科學與工程技術(shù)叢書
標　簽：	暫缺

ISBN：	9787111600343	出版時間：	2018-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	175	字數(shù)：

數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)導論

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

Excel財務數(shù)據(jù)合并與分析建模案…

政治新課程與學科素質(zhì)培養(yǎng)：思想…

Word+Excel+PPT+思維導圖+PS+釘…

和秋葉一起學Word（第4版）

LaTeX論文寫作教程

計算機組裝與維護實訓

左手Excel右手Tableau數(shù)據(jù)分析可…

Excel在人力資源與行政管理中的…

中英文打字

基于Excel的審計分析模板