注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)猩球:海量數(shù)據(jù)處理實(shí)踐指南

大數(shù)據(jù)猩球:海量數(shù)據(jù)處理實(shí)踐指南

大數(shù)據(jù)猩球:海量數(shù)據(jù)處理實(shí)踐指南

定 價(jià):¥69.00

作 者: (美)Philip Kromer(菲利普·克羅默),Russell Jurney(拉塞爾·賈米)
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)庫 數(shù)據(jù)庫理論

ISBN: 9787121294181 出版時(shí)間: 2016-08-01 包裝: 平塑
開本: 頁數(shù): 212 字?jǐn)?shù):  

內(nèi)容簡介

  本書以實(shí)用的、可操作的視角解釋了大數(shù)據(jù)——采用黑猩猩和大象的隱喻,基于棒球統(tǒng)計(jì)數(shù)據(jù)集,使用Apache Hadoop和Pig等工具展示了如何處理大規(guī)模數(shù)據(jù)。此外,通過處理真實(shí)數(shù)據(jù)、解決現(xiàn)實(shí)問題,作者還以實(shí)例的形式總結(jié)了一些實(shí)踐分析模式,為有創(chuàng)造力的分析人員提供了最強(qiáng)大、最有價(jià)值的方法。本書特別適合那些需要大數(shù)據(jù)工具箱來解決實(shí)際問題的人們。

作者簡介

  唐李洋,女,博士,中國電子科技集團(tuán)公司第三十八研究所,工程師,目前從事公共安全等領(lǐng)域相關(guān)的大數(shù)據(jù)分析與數(shù)據(jù)挖掘工作。譯有《高可用MySQL》(第1和第2版)、《R語言高性能編程》等書。 Philip Kromer是云大數(shù)據(jù)平臺(tái)領(lǐng)先者Infochimps的創(chuàng)始人和CTO,以及Vigilante的聯(lián)合創(chuàng)始人。他的其中一個(gè)項(xiàng)目WuKong,是Hadoop Ruby流處理最常使用的框架之一。Russell Jurney是全球經(jīng)濟(jì)市場(chǎng)地圖創(chuàng)業(yè)公司Relato的創(chuàng)始人和CEO。他曾任LinkedIn產(chǎn)品分析數(shù)據(jù)科學(xué)家,還是一個(gè)Hadoop傳道士。

圖書目錄

前言 ..................................................................................................XI 第一部分 入門 :理論和工具 第 1 章 Hadoop 基礎(chǔ) ........................................................................3 黑猩猩和大象創(chuàng)業(yè) .................................................................................................................4 Map-Only 作業(yè) :逐個(gè)處理記錄 ...........................................................................................5 Pig Latin Map-Only 作業(yè)........................................................................................................6 創(chuàng)建 Docker Hadoop 集群 ......................................................................................................8 運(yùn)行作業(yè) .......................................................................................................................12 小結(jié) .......................................................................................................................................15 第 2 章 MapReduce........................................................................17 黑猩猩和大象拯救圣誕節(jié) ...................................................................................................17 玩具島上的麻煩 ...........................................................................................................17 黑猩猩把信件變成帶標(biāo)簽的玩具表 ...........................................................................19 小象將玩具表送到適當(dāng)?shù)墓ぷ髋_(tái) .......................................................................................21 示例 :馴鹿游戲 ...................................................................................................................23 UFO 數(shù)據(jù) ......................................................................................................................24 根據(jù)報(bào)道延遲對(duì) UFO 目擊分組 .................................................................................24 Mapper ..........................................................................................................................24 Reducer .........................................................................................................................26 數(shù)據(jù)可視化 ...................................................................................................................29 馴鹿小結(jié) .......................................................................................................................30 Hadoop 與傳統(tǒng)數(shù)據(jù)庫 .........................................................................................................30 MapReduce 俳句 ...................................................................................................................31 Map 階段簡述 ..............................................................................................................32 Group-Sort 階段簡述 ...................................................................................................32 Reduce 階段簡述 ..........................................................................................................32 小結(jié) .......................................................................................................................................33 第 3 章 棒球數(shù)據(jù)集速覽 ..................................................................35 數(shù)據(jù) .......................................................................................................................................35 縮略詞和術(shù)語 .......................................................................................................................36 規(guī)則和目標(biāo) ...........................................................................................................................37 評(píng)價(jià)指標(biāo) ...............................................................................................................................37 小結(jié) .......................................................................................................................................38 第 4 章 Pig 入門 ..............................................................................39 Pig 幫助 Hadoop 處理數(shù)據(jù)表,而不是記錄 ......................................................................39 維基百科訪問數(shù)統(tǒng)計(jì) ...................................................................................................41 基本數(shù)據(jù)操作 .......................................................................................................................43 控制操作 .......................................................................................................................44 管道操作 .......................................................................................................................44 結(jié)構(gòu)化操作 ...................................................................................................................44 LOAD 定位并描述你的數(shù)據(jù) ...............................................................................................46 簡單類型 .......................................................................................................................46 復(fù)雜類型 1,元組 :帶類型字段的固長序列 ............................................................47 復(fù)雜類型 2,袋 :元組的無限集合 ............................................................................47 定義變換后的記錄模式 ...............................................................................................48 STORE 將數(shù)據(jù)寫入磁盤 .....................................................................................................49 輔助命令 ...............................................................................................................................50 DESCRIBE ...................................................................................................................50 DUMP ...........................................................................................................................50 SAMPLE .......................................................................................................................50 ILLUSTRATE ...............................................................................................................51 EXPLAIN......................................................................................................................51 Pig 函數(shù) .................................................................................................................................51 Piggybank ..............................................................................................................................53 Apache DataFu ......................................................................................................................56 小結(jié) .......................................................................................................................................59 第二部分 戰(zhàn)術(shù) :分析模式 第 5 章 Map-Only 操作 ...................................................................63 模式用法 .......................................................................................................................63 清除數(shù)據(jù) ...............................................................................................................................64 選擇滿足條件的記錄 :FILTER 等 .....................................................................................65 選擇滿足多個(gè)條件的記錄 ...........................................................................................66 選擇或丟棄空值記錄 ...................................................................................................66 選擇匹配正則表達(dá)式的記錄(MATCHES) ..............................................................67 根據(jù)固定的值列表匹配記錄 .......................................................................................70 按字段名投影字段 ...............................................................................................................71 使用 FOREACH 選擇、重命名和重排序字段 ..........................................................71 抽取記錄的隨機(jī)樣本 ...................................................................................................73 按 key 抽取一致性樣本 ...............................................................................................74 僅加載部分 part-Files 實(shí)現(xiàn)粗略抽樣 .........................................................................75 使用 LIMIT 選擇固定數(shù)量的記錄..............................................................................75 其他數(shù)據(jù)消除模式 .......................................................................................................76 變換記錄 ...............................................................................................................................76 使用 FOREACH 逐個(gè)變換記錄 ..................................................................................76 嵌套 FOREACH 允許使用中間表達(dá)式 ......................................................................77 根據(jù)模版格式化字符串 ...............................................................................................79 使用復(fù)雜類型組裝字面值 ...........................................................................................80 操縱字段的類型 ...........................................................................................................84 整型、浮點(diǎn)型和取整 ...................................................................................................86 從外部包調(diào)用用戶自定義函數(shù) ...................................................................................87 將一個(gè)表分裂成多個(gè)表的操作 ...........................................................................................88 將數(shù)據(jù)條件定向到多個(gè)數(shù)據(jù)流 (SPLIT) ....................................................................88 將幾個(gè)表聯(lián)合成一個(gè)表的操作 ...........................................................................................89 將多個(gè) Pig 關(guān)系表合并成一個(gè)表(堆砌行集) .........................................................89 小結(jié) .......................................................................................................................................91 第 6 章 分組操作 .............................................................................93 按 key 將記錄分組到袋 .......................................................................................................93 模式用法 .......................................................................................................................97 統(tǒng)計(jì) key 的出現(xiàn)次數(shù) ...................................................................................................97 使用帶分隔符的字符串表示值的集合 .......................................................................99 使用帶分隔符的字符串表示復(fù)雜數(shù)據(jù)結(jié)構(gòu) .............................................................101 使用 JSON 編碼的字符串表示復(fù)雜數(shù)據(jù)結(jié)構(gòu) .........................................................102 分組和聚合 .........................................................................................................................106 聚合組的統(tǒng)計(jì)數(shù)據(jù) .....................................................................................................106 完全匯總字段 .............................................................................................................108 匯總整個(gè)表的聚合統(tǒng)計(jì)值 .........................................................................................110 匯總字符串字段 ......................................................................................................... 111 使用直方圖計(jì)算數(shù)值型值的分布情況 .............................................................................113 模式用法 .....................................................................................................................114 直方圖的數(shù)據(jù)分箱 .....................................................................................................114 確定箱子的大小 .........................................................................................................116 解釋直方圖和分位數(shù) .................................................................................................118 將數(shù)據(jù)分箱到規(guī)模呈指數(shù)變化的塊 .........................................................................119 為通用代碼段創(chuàng)建 Pig 宏 .........................................................................................121 比賽分布情況 .............................................................................................................121 極端情況和干擾因子 .................................................................................................122 不要相信尾部分布 .....................................................................................................125 計(jì)算相對(duì)分布直方圖 .................................................................................................126 重新注入全局值 .........................................................................................................127 在組內(nèi)計(jì)算直方圖 .....................................................................................................128 導(dǎo)出可讀結(jié)果 .............................................................................................................130 匯總技巧 .............................................................................................................................132 統(tǒng)計(jì)組的條件子集——匯總技巧 .............................................................................132 同時(shí)匯總組的多個(gè)子集 .............................................................................................134 測(cè)試組內(nèi)某個(gè)值是否缺失 .........................................................................................136 小結(jié) .....................................................................................................................................137 參考文獻(xiàn) .............................................................................................................................138 第 7 章 表連接 ..............................................................................139 匹配表記錄(內(nèi)連接) ......................................................................................................140 將一個(gè)表的記錄與另一個(gè)表的記錄直接匹配連接(直接內(nèi)連接) .......................140 連接是怎么工作的 .............................................................................................................142 連接就是 COGROUP+FLATTEN .............................................................................142 連接就是在表名上進(jìn)行二次排序的 MapReduce 作業(yè) ...........................................143 處理連接和分組中的空值和不匹配 .........................................................................145 枚舉多對(duì)多關(guān)系 .................................................................................................................147 連接表和它自己(自連接) ...............................................................................................148 包含不匹配記錄的連接(外連接) ...................................................................................150 模式用法 .....................................................................................................................152 連接不含外鍵關(guān)系的表 .............................................................................................153 連接整型表填補(bǔ)列表中的空白 .................................................................................155 僅選擇與另一個(gè)表不匹配的記錄(反連接) ...................................................................157 僅選擇與另一個(gè)表匹配的記錄(半連接) .......................................................................158 反連接的另一種方式 :使用 COGROUP .................................................................158 小結(jié) .....................................................................................................................................160 第 8 章 排序操作 ...........................................................................161 準(zhǔn)備職業(yè)生涯時(shí)期 .............................................................................................................161 對(duì)所有記錄進(jìn)行全排序 .....................................................................................................163 多字段排序 .................................................................................................................164 表達(dá)式排序(行不通) ...............................................................................................164 大小寫不敏感的字符串排序 .....................................................................................165 排序的空值處理 .........................................................................................................165 將值放到排序順序的頂部或底端 .............................................................................166 組內(nèi)排序 .............................................................................................................................167 模式用法 .....................................................................................................................169 根據(jù)字段值的 Top-K 選擇行 ....................................................................................169 組內(nèi) Top-K .................................................................................................................170 按照排序順序給記錄編號(hào) .................................................................................................170 找出最大值對(duì)應(yīng)的記錄 .............................................................................................171 對(duì)一組記錄進(jìn)行混排 .................................................................................................171 小結(jié) .....................................................................................................................................172 第 9 章 重復(fù)記錄和唯一記錄 .........................................................173 處理重復(fù) .............................................................................................................................173 消除表中的重復(fù)記錄 .................................................................................................174 消除組內(nèi)的重復(fù)記錄 .................................................................................................174 基于鍵消除重復(fù) .........................................................................................................175 基于鍵選擇唯一(或重復(fù))記錄 .............................................................................176 集合操作 .............................................................................................................................177 全表上的集合操作 .....................................................................................................178 Distinct Union .............................................................................................................179 Distinct Union(其他方法) .......................................................................................179 Set Intersection ............................................................................................................179 Set Difference .............................................................................................................180 Symmetric Difference :(A-B)+(B-A) ........................................................................180 Set Equality .................................................................................................................181 組內(nèi)集合操作 .............................................................................................................182 構(gòu)造一個(gè)集合序列 .....................................................................................................182 某個(gè)組內(nèi)的集合操作 .................................................................................................183 小結(jié) .....................................................................................................................................185 索引 ................................................................................................187

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)