注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件白話大數(shù)據(jù)與機器學習

白話大數(shù)據(jù)與機器學習

白話大數(shù)據(jù)與機器學習

定 價:¥69.00

作 者: 高揚,衛(wèi)崢,尹會生
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 編程語言與程序設計 計算機?網(wǎng)絡

ISBN: 9787111538479 出版時間: 2016-07-01 包裝: 平裝
開本: 16開 頁數(shù): 329 字數(shù):  

內容簡介

  資深大數(shù)據(jù)專家多年實戰(zhàn)經(jīng)驗總結,拒絕晦澀,開啟大數(shù)據(jù)與機器學習妙趣之旅。以降低學習曲線和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計學、數(shù)據(jù)挖掘算法、實際應用案例、數(shù)據(jù)價值與變現(xiàn),以及高級拓展技能,并清晰勾勒出大數(shù)據(jù)技術路線與產(chǎn)業(yè)藍圖。本書共分18章。用通俗易懂的語言,結合大量案例與漫畫,不枯燥,實用、接地氣。第1~5章,這部分是大數(shù)據(jù)入門所需的系統(tǒng)性知識,剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關系,妙解數(shù)學基礎(排列組合、概率、統(tǒng)計與分布),以及指標化運營及體系構建。這部分補足讀者的產(chǎn)業(yè)與相關概念認知,以及所需的數(shù)學知識。為下面的數(shù)據(jù)挖掘算法的理解與應用夯實基礎。第6~8章,這部分介紹數(shù)據(jù)挖掘基礎知識與算法,講解了與數(shù)據(jù)息息相關的信息論,重點講解了:多維向量空間(向量和維度、矩陣及其計算、上卷和下鉆);回歸(線性回歸、殘差分析、擬合相關問題);聚類(K-Means算法、有趣模式、孤立點、層次與密度聚類,聚類的評估等);分類(樸素貝葉斯、決策樹歸納、隨機森林、隱馬爾科夫模型、SVM、遺傳算法)。第11~18章,這部分介紹生產(chǎn)應用與高級擴展。其中第11~15章介紹生產(chǎn)應用實踐,涵蓋關聯(lián)分析、用戶畫像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡。這些也是工業(yè)界和學術界研究的熱點。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構與調優(yōu)。第18章則從數(shù)據(jù)運營、評估、展現(xiàn)與變現(xiàn)場景層面進行了解讀。附錄部分給出了大數(shù)據(jù)平臺運行可能需要的軟件和庫,以及群眾如何看待炙手可熱的大數(shù)據(jù)。

作者簡介

  高揚,金山軟件西山居資深大數(shù)據(jù)架構師與大數(shù)據(jù)專家,有多年編程經(jīng)驗(多年日本和澳洲工作經(jīng)驗)和多年大數(shù)據(jù)架構設計與數(shù)據(jù)分析、處理經(jīng)驗,目前負責西山居的大數(shù)據(jù)產(chǎn)品市場戰(zhàn)略與產(chǎn)品戰(zhàn)略。專注于大數(shù)據(jù)系統(tǒng)架構以及變現(xiàn)研究。擅長數(shù)據(jù)挖掘、數(shù)據(jù)建模、關系型數(shù)據(jù)庫應用以及大數(shù)據(jù)框架Hadoop、Spark、Cassandra、Prestodb等的應用。負責西山居紫霞系統(tǒng)——大數(shù)據(jù)日志處理系統(tǒng)的系統(tǒng)架構與設計工作。衛(wèi)崢,西山居軟件架構師,多年的軟件開發(fā)和架構經(jīng)驗,精通C/C++、Python、Golang、JavaScript等多門編程語言,近幾年專注于數(shù)據(jù)處理、機器學算法的研究、應用與服務研發(fā)。曾在新浪網(wǎng)平臺架構部負責音視頻轉碼平臺的架構和研發(fā)工作,為新浪微博,新浪微盤,秒拍等提供視頻在線觀看服務。51CTO講師,個人出品的教學視頻:

圖書目錄

第1章大數(shù)據(jù)產(chǎn)業(yè)1
  1.1大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀1
  1.2對大數(shù)據(jù)產(chǎn)業(yè)的理解2
  1.3大數(shù)據(jù)人才3
  1.3.1供需失衡3
  1.3.2人才方向3
  1.3.3環(huán)節(jié)和工具5
  1.3.4門檻障礙6
  1.4小結8
  第2章步入數(shù)據(jù)之門9
  2.1什么是數(shù)據(jù)9
  2.2什么是信息10
  2.3什么是算法12
  2.4統(tǒng)計、概率和數(shù)據(jù)挖掘13
  2.5什么是商業(yè)智能13
  2.6小結14
  第3章排列組合與古典概型15
  3.1排列組合的概念16
  3.1.1公平的決斷——扔硬幣16
  3.1.2非古典概型17
  3.2排列組合的應用示例18
  3.2.1雙色球彩票18
  3.2.2購車搖號20
  3.2.3德州撲克21
  3.3小結25
  第4章統(tǒng)計與分布27
  4.1加和值、平均值和標準差27
  4.1.1加和值28
  4.1.2平均值29
  4.1.3標準差30
  4.2加權均值32
  4.2.1混合物定價32
  4.2.2決策權衡34
  4.3眾數(shù)、中位數(shù)35
  4.3.1眾數(shù)36
  4.3.2中位數(shù)37
  4.4歐氏距離37
  4.5曼哈頓距離39
  4.6同比和環(huán)比41
  4.7抽樣43
  4.8高斯分布45
  4.9泊松分布49
  4.10伯努利分布52
  4.11小結54
  第5章指標55
  5.1什么是指標55
  5.2指標化運營58
  5.2.1指標的選擇58
  5.2.2指標體系的構建62
  5.3小結63
  第6章信息論64
  6.1信息的定義64
  6.2信息量65
  6.2.1信息量的計算65
  6.2.2信息量的理解66
  6.3香農(nóng)公式68
  6.4熵70
  6.4.1熱力熵70
  6.4.2信息熵72
  6.5小結75
  第7章多維向量空間76
  7.1向量和維度76
  7.1.1信息冗余77
  7.1.2維度79
  7.2矩陣和矩陣計算80
  7.3數(shù)據(jù)立方體83
  7.4上卷和下鉆85
  7.5小結86
  第8章回歸87
  8.1線性回歸87
  8.2擬合88
  8.3殘差分析94
  8.4過擬合99
  8.5欠擬合100
  8.6曲線擬合轉化為線性擬合101
  8.7小結104
  第9章聚類105
  9.1K-Means算法106
  9.2有趣模式109
  9.3孤立點110
  9.4層次聚類110
  9.5密度聚類113
  9.6聚類評估116
  9.6.1聚類趨勢117
  9.6.2簇數(shù)確定119
  9.6.3測定聚類質量121
  9.7小結124
  第10章分類125
  10.1樸素貝葉斯126
  10.1.1天氣的預測128
  10.1.2疾病的預測130
  10.1.3小結132
  10.2決策樹歸納133
  10.2.1樣本收集135
  10.2.2信息增益136
  10.2.3連續(xù)型變量137
  10.3隨機森林140
  10.4隱馬爾可夫模型141
  10.4.1維特比算法144
  10.4.2前向算法151
  10.5支持向量機SVM154
  10.5.1年齡和好壞154
  10.5.2“下刀”不容易157
  10.5.3距離有多遠158
  10.5.4N維度空間中的距離159
  10.5.5超平面怎么畫160
  10.5.6分不開怎么辦160
  10.5.7示例163
  10.5.8小結164
  10.6遺傳算法164
  10.6.1進化過程164
  10.6.2算法過程165
  10.6.3背包問題165
  10.6.4極大值問題173
  10.7小結181
  第11章關聯(lián)分析183
  11.1頻繁模式和Apriori算法184
  11.1.1頻繁模式184
  11.1.2支持度和置信度185
  11.1.3經(jīng)典的Apriori算法187
  11.1.4求出所有頻繁模式190
  11.2關聯(lián)分析與相關性分析192
  11.3稀有模式和負模式193
  11.4小結194
  第12章用戶畫像195
  12.1標簽195
  12.2畫像的方法196
  12.2.1結構化標簽196
  12.2.2非結構化標簽198
  12.3利用用戶畫像203
  12.3.1割裂型用戶畫像203
  12.3.2緊密型用戶畫像204
  12.3.3到底“像不像”204
  12.4小結205
  第13章推薦算法206
  13.1推薦思路206
  13.1.1貝葉斯分類206
  13.1.2利用搜索記錄207
  13.2User-basedCF209
  13.3Item-basedCF211
  13.4優(yōu)化問題215
  13.5小結217
  第14章文本挖掘218
  14.1文本挖掘的領域218
  14.2文本分類219
  14.2.1Rocchio算法220
  14.2.2樸素貝葉斯算法223
  14.2.3K-近鄰算法225
  14.2.4支持向量機SVM算法226
  14.3小結227
  第15章人工神經(jīng)網(wǎng)絡228
  15.1人的神經(jīng)網(wǎng)絡228
  15.1.1神經(jīng)網(wǎng)絡結構229
  15.1.2結構模擬230
  15.1.3訓練與工作231
  15.2FANN庫簡介233
  15.3常見的神經(jīng)網(wǎng)絡235
  15.4BP神經(jīng)網(wǎng)絡235
  15.4.1結構和原理236
  15.4.2訓練過程237
  15.4.3過程解釋240
  15.4.4示例240
  15.5玻爾茲曼機244
  15.5.1退火模型244
  15.5.2玻爾茲曼機245
  15.6卷積神經(jīng)網(wǎng)絡247
  15.6.1卷積248
  15.6.2圖像識別249
  15.7深度學習255
  15.8小結256
  第16章大數(shù)據(jù)框架簡介257
  16.1著名的大數(shù)據(jù)框架257
  16.2Hadoop框架258
  16.2.1MapReduce原理259
  16.2.2安裝Hadoop261
  16.2.3經(jīng)典的WordCount264
  16.3Spark框架269
  16.3.1安裝Spark270
  16.3.2使用Scala計算WordCount271
  16.4分布式列存儲框架272
  16.5PrestoDB——神奇的CLI273
  16.5.1Presto為什么那么快273
  16.5.2安裝Presto274
  16.6小結277
  第17章系統(tǒng)架構和調優(yōu)278
  17.1速度——資源的配置278
  17.1.1思路一:邏輯層面的優(yōu)化279
  17.1.2思路二:容器層面的優(yōu)化279
  17.1.3思路三:存儲結構層面的優(yōu)化280
  17.1.4思路四:環(huán)節(jié)層面的優(yōu)化280
  17.1.5資源不足281
  17.2穩(wěn)定——資源的可用282
  17.2.1借助云服務282
  17.2.2鎖分散282
  17.2.3排隊283
  17.2.4謹防“雪崩”283
  17.3小結285
  第18章數(shù)據(jù)解讀與數(shù)據(jù)的價值286
  18.1運營指標286
  18.1.1互聯(lián)網(wǎng)類型公司常用指標287
  18.1.2注意事項288
  18.2AB測試289
  18.2.1網(wǎng)頁測試290
  18.2.2方案測試290
  18.2.3灰度發(fā)布292
  18.2.4注意事項293
  18.3數(shù)據(jù)可視化295
  18.3.1圖表295
  18.3.2表格299
  18.4多維度——大數(shù)據(jù)的靈魂299
  18.4.1多大算大299
  18.4.2大數(shù)據(jù)網(wǎng)絡300
  18.4.3去中心化才能活躍301
  18.4.4數(shù)據(jù)會過剩嗎302
  18.5數(shù)據(jù)變現(xiàn)的場景303
  18.5.1數(shù)據(jù)價值的衡量的討論303
  18.5.2場景1:征信數(shù)據(jù)307
  18.5.3場景2:宏觀數(shù)據(jù)308
  18.5.4場景3:畫像數(shù)據(jù)309
  18.6小結310
  附錄AVMwareWorkstation的安裝311
  附錄BCentOS虛擬機的安裝方法314
  附錄CPython語言簡介318
  附錄DScikit-learn庫簡介323
  附錄EFANNforPython安裝324
  附錄F群眾眼中的大數(shù)據(jù)325
  寫作花絮327
  參考文獻329

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號