注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫大數(shù)據(jù)導論

大數(shù)據(jù)導論

大數(shù)據(jù)導論

定 價:¥69.00

作 者: 于俊偉,母亞雙,閆秋玲
出版社: 北京大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787301333341 出版時間: 2023-01-01 包裝: 平裝
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書圍繞新工科背景下大數(shù)據(jù)人才培養(yǎng)需求編寫,系統(tǒng)介紹了大數(shù)據(jù)采集與預處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)處理與分析、大數(shù)據(jù)可視化處理流程;重點分析了科大訊飛大數(shù)據(jù)平臺在政務、交通、金融和用戶畫像等實際場景中的應用,還介紹了大數(shù)據(jù)實驗環(huán)境的詳細搭建步驟;最后介紹了大數(shù)據(jù)治理中法律政策、行業(yè)標準建設的最新進展,分析了大數(shù)據(jù)可能帶來的倫理風險和應對策略。本書將大數(shù)據(jù)基礎理論與實際案例結(jié)合,輔以編程實踐和有針對性的課后習題,可作為高等院校相關(guān)專業(yè)的導論課教材,也可作為大數(shù)據(jù)相關(guān)從業(yè)人員技術(shù)參考書。

作者簡介

  于俊偉,博士,河南工業(yè)大學碩士生導師,從事計算機視覺、機器學習和數(shù)據(jù)科學等方面的研究與教學工作,主持和參與國家自然科學基金、河南省重點研發(fā)與推廣專項等項目7項,發(fā)表學術(shù)論文10余篇,翻譯及編著數(shù)據(jù)科學方面圖書5部。母亞雙,博士,河南工業(yè)大學碩士生導師,從事機器學習、大數(shù)據(jù)分析與處理等方向的研究與教學工作,主持和參與國家自然科學基金、河南省科技攻關(guān)等項目6項,發(fā)表學術(shù)論文12篇,申請國家發(fā)明專利2項。閆秋玲,女,博士,主要從事機器學習、大數(shù)據(jù)分析等方向的研究與教學工作,主持河南省科技攻關(guān)項目、河南省教育廳項目、大學生創(chuàng)新創(chuàng)業(yè)訓練項目等教科研項目多項,發(fā)表學術(shù)論文7篇,獲得國家發(fā)明專利1項,主編教材1部,翻譯著作2部。

圖書目錄

第 1 章  大數(shù)據(jù)概述  1
1.1 大數(shù)據(jù)的產(chǎn)生及其特征  2
1.1.1 大數(shù)據(jù)的產(chǎn)生  2
1.1.2 大數(shù)據(jù)的特征  2
1.2 大數(shù)據(jù)發(fā)展  5
1.2.1 大數(shù)據(jù)發(fā)展歷程  5
1.2.2 國外大數(shù)據(jù)戰(zhàn)略  6
1.2.3 中國大數(shù)據(jù)戰(zhàn)略與政策  7
1.2.4 大數(shù)據(jù)立法和標準  8
1.3 大數(shù)據(jù)思維  9
1.3.1 大數(shù)據(jù)的價值  9
1.3.2 大數(shù)據(jù)的思維變革  10
1.4 大數(shù)據(jù)應用  12
1.4.1 大數(shù)據(jù)應用層次  12
1.4.2 大數(shù)據(jù)應用領域  13
1.5 大數(shù)據(jù)技術(shù)與工具  15
1.5.1 大數(shù)據(jù)處理流程  15
1.5.2 大數(shù)據(jù)行業(yè)全景圖  15
1.5.3 大數(shù)據(jù)分析平臺  17
1.5.4 大數(shù)據(jù)編程語言  18
1.6 本章小結(jié)  20
1.7 習題  20
第 2 章  大數(shù)據(jù)采集與預處理  21
2.1 概述  22
2.2 大數(shù)據(jù)的來源  23
2.3 大數(shù)據(jù)的采集方法  24
2.3.1 數(shù)據(jù)庫采集  25
2.3.2 系統(tǒng)日志采集  25
2.3.3 網(wǎng)絡數(shù)據(jù)采集  25
2.3.4 其他數(shù)據(jù)采集  26
2.4 大數(shù)據(jù)預處理方法  27
2.4.1 數(shù)據(jù)清洗  27
2.4.2 數(shù)據(jù)集成  30
2.4.3 數(shù)據(jù)變換  30
2.5 大數(shù)據(jù)采集與預處理工具  32
2.5.1 網(wǎng)絡爬蟲 Scrapy  32
2.5.2 流數(shù)據(jù)采集 Kafka  36
2.5.3 ETL 工具 Kettle  38
2.6 本章小結(jié)  43
2.7 習題  44
第 3 章  大數(shù)據(jù)存儲與管理技術(shù)  45
3.1 大數(shù)據(jù)存儲與管理技術(shù)概述  46
3.2 分布式文件系統(tǒng)  46
3.2.1 HDFS  47
3.2.2 Ceph  53
3.2.3 GlusterFS  55
3.3 NoSQL 數(shù)據(jù)庫  57
3.3.1 鍵值數(shù)據(jù)庫  58
3.3.2 列族數(shù)據(jù)庫  59
3.3.3 文檔數(shù)據(jù)庫  62
3.3.4 圖數(shù)據(jù)庫  62
3.4 大數(shù)據(jù)查詢系統(tǒng)  63
3.4.1 大數(shù)據(jù)查詢系統(tǒng)概述  63
3.4.2 Dremel  64
3.5 數(shù)據(jù)倉庫  65
3.5.1 數(shù)據(jù)倉庫的特點  65
3.5.2 關(guān)系型數(shù)據(jù)倉庫體系結(jié)構(gòu)  67
3.5.3 數(shù)據(jù)倉庫 Hive  68
3.5.4 數(shù)據(jù)倉庫 Impala  70
3.6 本章小結(jié)  72
3.7 習題  72
第 4 章  大數(shù)據(jù)處理與分析系統(tǒng)  73
4.1 概述  74
4.2 谷歌大數(shù)據(jù)處理系統(tǒng)  74
4.2.1 GFS 74
4.2.2 MapReduce  76
4.2.3 BigTable  76
4.3 分布式計算框架 Hadoop MapReduce  77
4.3.1 Hadoop MapReduce 概述  77
4.3.2 Hadoop MapReduce 應用舉例  79
4.4 快速計算框架 Spark  83
4.4.1 Spark 簡介  83
4.4.2 Spark 運行架構(gòu)  86
4.4.3 Spark 的部署方式  86
4.4.4 Spark 的數(shù)據(jù)抽象 RDD  87
4.4.5 Spark MLlib  88
4.4.6 Spark Streaming  89
4.4.7 Spark SQL  91
4.4.8 Spark GraphX  92
4.5 其他大數(shù)據(jù)分析系統(tǒng)  94
4.5.1 圖計算系統(tǒng) Pregel 95
4.5.2 流處理系統(tǒng) Flink  96
4.6 本章小結(jié)  97
4.7 習題  97
第 5 章  大數(shù)據(jù)機器學習  98
5.1 機器學習簡介  99
5.1.1 機器學習的定義  99
5.1.2 機器學習的分類  99
5.1.3 機器學習的歷史  102
5.1.4 機器學習與數(shù)據(jù)挖掘的關(guān)系  106
5.2 數(shù)據(jù)  107
5.2.1 數(shù)據(jù)概述  107
5.2.2 帶有標簽的數(shù)據(jù)和不帶標簽的數(shù)據(jù)  107
5.2.3 訓練數(shù)據(jù)、測試數(shù)據(jù)、驗證數(shù)據(jù)  108
5.3 有監(jiān)督學習  109
5.3.1 有監(jiān)督學習簡介  109
5.3.2 回歸  109
5.3.3 分類  112
5.3.4 常見的有監(jiān)督學習方法  114
5.4 無監(jiān)督學習  119
5.4.1 無監(jiān)督學習簡介  119
5.4.2 聚類  119
5.4.3 關(guān)聯(lián)分析  122
5.5 強化學習  123
5.5.1 強化學習簡介  123
5.5.2 強化學習主流算法  125
5.5.3 強化學習的使用場景  126
5.6 弱監(jiān)督學習  127
5.6.1 弱監(jiān)督學習簡介  127
5.6.2 弱監(jiān)督學習的分類  127
5.7 機器學習的相關(guān)資源與工具  128
5.8 本章小結(jié)  130
5.9 習題  131
第 6 章  數(shù)據(jù)可視化  132
6.1 可視化概述  133
6.1.1 可視化的含義  133
6.1.2 可視化的發(fā)展歷程  133
6.1.3 可視化的作用  134
6.2 數(shù)據(jù)可視化及其分類  135
6.2.1 科學可視化  135
6.2.2 信息可視化  136
6.2.3 可視化分析學  137
6.3 數(shù)據(jù)可視化工具  138
6.3.1 入門級工具  138
6.3.2 信息圖表工具  138
6.3.3 地圖工具  141
6.3.4 基于編程語言的可視化庫  142
6.4 本章小結(jié)  144
6.5 習題  144
第 7 章  大數(shù)據(jù)行業(yè)應用案例  145
7.1 大數(shù)據(jù)行業(yè)應用概述  146
7.2 政務大數(shù)據(jù)  146
7.3 交通大數(shù)據(jù)  150
7.3.1 人群生活模式劃分  151
7.3.2 道路擁堵模式預測  156
7.4 征信大數(shù)據(jù)  160
7.4.1 企業(yè)征信大數(shù)據(jù)應用  160
7.4.2 企業(yè)法人資產(chǎn)建模實踐  168
7.5 畫像大數(shù)據(jù)  171
7.5.1 用戶畫像概述  171
7.5.2 構(gòu)建用戶畫像流程  172
7.5.3 構(gòu)建用戶畫像  175
7.5.4 用戶畫像評估和使用  181
7.6 本章小結(jié)  182
7.7 習題  182
第 8 章  大數(shù)據(jù)平臺與實驗環(huán)境  183
8.1 大數(shù)據(jù)平臺與環(huán)境概述  184
8.1.1 大數(shù)據(jù)平臺簡介  184
8.1.2 搭建環(huán)境簡介  186
8.2 安裝虛擬機  186
8.3 在虛擬機中安裝 Linux 系統(tǒng)  189
8.4 為 Ubuntu 系統(tǒng)配置 Java 開發(fā)環(huán)境  191
8.5 在 Ubuntu 系統(tǒng)中安裝 Hadoop  197
8.5.1 查詢和更改主機名  198
8.5.2 更改 host 文件  199
8.5.3 認證 SSH 實現(xiàn)無密碼登錄  200
8.5.4 復制 Hadoop 2.6.0 到指定目錄并解壓  202
8.5.5 配置文件  203
8.5.7 啟動、驗證和關(guān)閉 Hadoop  211
8.6 安裝 Eclipse 和 Eclipse-hadoop-plugin  214
8.6.1 安裝 Eclipse  214
8.6.2 配置 Eclipse-hadoop-plugin 214
8.7 新建、導入、運行與調(diào)試 Hadoop 工程 216
8.7.1 新建 Hadoop 工程 216
8.7.2 導入已有的 Hadoop 工程 217
8.7.3 運行 Hadoop 工程 219
8.7.4 調(diào)試 Hadoop 工程 223
8.8 本章小結(jié)  226
8.9 習題  226
第 9 章  大數(shù)據(jù)治理  227
9.1 大數(shù)據(jù)治理體系  228
9.2 大數(shù)據(jù)法律政策  229
9.3 大數(shù)據(jù)行業(yè)標準  231
9.4 大數(shù)據(jù)治理內(nèi)容  234
9.5 大數(shù)據(jù)倫理風險  237
9.6 本章小結(jié)  240
9.7 習題  240
主要參考文獻 241

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號