注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫大數(shù)據(jù)是這樣計算的:XLab實例入門

大數(shù)據(jù)是這樣計算的:XLab實例入門

大數(shù)據(jù)是這樣計算的:XLab實例入門

定 價:¥79.00

作 者: 楊旭
出版社: 電子工業(yè)出版社
叢編項:
標(biāo) 簽: 計算機/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787121282317 出版時間: 2016-03-01 包裝: 平塑勒單襯
開本: 頁數(shù): 340 字?jǐn)?shù):  

內(nèi)容簡介

  隨著大數(shù)據(jù)分析方法的發(fā)展,分析工具的改進,大數(shù)據(jù)分析的門檻降低了?;诖髷?shù)據(jù)算法平臺,數(shù)據(jù)分析師們已經(jīng)不再被數(shù)據(jù)的“大”所困擾,可以輕松地探索大數(shù)據(jù),挖掘大數(shù)據(jù)的價值。本書側(cè)重介紹大數(shù)據(jù)分析方法和算法的應(yīng)用,適合對大數(shù)據(jù)分析感興趣的讀者閱讀。在內(nèi)容的組織上,選取了10個不同領(lǐng)域的真實數(shù)據(jù)集,針對每個數(shù)據(jù)的特點,選擇適合的方法和算法,和讀者一起體驗數(shù)據(jù)探索、數(shù)據(jù)分析、建模預(yù)測的過程;通過實例計算的結(jié)果,讀者會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數(shù)據(jù)算法平臺XLab上。

作者簡介

  楊旭,吉林長春人,2004年獲南開大學(xué)數(shù)學(xué)博士學(xué)位;隨后在南開大學(xué)信息學(xué)院從事博士后研究工作;2006年加入微軟亞洲研究院,進行符號計算、大規(guī)模矩陣計算及機器學(xué)習(xí)算法研究;2010年加入阿里巴巴,從事大數(shù)據(jù)相關(guān)的統(tǒng)計和機器學(xué)習(xí)算法研發(fā)。著有《重構(gòu)大數(shù)據(jù)統(tǒng)計》。

圖書目錄

第1章 入門 11.1 打開大數(shù)據(jù)之門 11.2 接觸大數(shù)據(jù) 21.3 數(shù)據(jù)初探索 41.4 進一步分析 101.5 訓(xùn)練和預(yù)測 17第2章 簡介 232.1 主界面介紹 232.1.1 工具欄 242.1.2 數(shù)據(jù)列表 262.1.3 窗口管理器 282.1.4 工作界面 282.2 數(shù)據(jù)查看、運行 292.2.1 文本顯示 312.2.2 復(fù)制部分?jǐn)?shù)據(jù) 312.2.3 顯示/隱藏列 322.3 腳本編輯、運行 332.4 如何獲得幫助信息 372.4.1 查看幫助手冊 372.4.2 界面上的幫助信息 382.4.3 腳本函數(shù)的幫助信息 402.5 執(zhí)行SQL語句 44第3章 全球機場信息 463.1 數(shù)據(jù)可視化 473.2 統(tǒng)計分析 583.3 大中型機場的分析 623.4 海拔高度排行 643.5 數(shù)據(jù)的關(guān)聯(lián)關(guān)系 68第4章 股票價格 734.1 數(shù)據(jù)處理 744.2 數(shù)據(jù)探索 784.3 數(shù)據(jù)展開 814.3.1 組合使用基本函數(shù)進行變換 834.3.2 利用專門函數(shù)一步到位 844.4 各股趨勢比較 854.5 總體趨勢 87第5章 標(biāo)準(zhǔn)普爾500指數(shù) 915.1 數(shù)據(jù)類型轉(zhuǎn)換 925.2 各指標(biāo)間的線性關(guān)系 935.3 按時間變化趨勢 965.4 數(shù)據(jù)對比 100第6章 鳶尾花數(shù)據(jù)集 1076.1 屬性間的關(guān)系 1086.2 聚類 1106.2.1 K-Means聚類 1116.2.2 EM聚類 1206.3 二分類數(shù)據(jù)子集 1246.3.1 使用訓(xùn)練、預(yù)測窗體 1256.3.2 調(diào)用訓(xùn)練、預(yù)測腳本 131第7章 MovieLens數(shù)據(jù)集 1367.1 數(shù)據(jù)變換 1377.2 統(tǒng)計 1387.3 排行榜 1457.4 分類排行榜 1477.5 影片關(guān)聯(lián)分析 1497.6 屬性擴展 157第8章 汽車評價數(shù)據(jù)集 1618.1 數(shù)據(jù)圖示化 1628.2 對比分析 1658.3 決策樹 169第9章 Twitter數(shù)據(jù) 1749.1 用戶信息分析 1759.2 用戶粉絲數(shù)量的情況 1849.3 粉絲的情況 1929.4 “粉”與“被粉” 1979.5 信息傳播速度 2049.6 哪些用戶更重要 2089.6.1 粉絲最多的用戶 2099.6.2 用戶排名 211第10章 隨機數(shù)據(jù) 21510.1 數(shù)據(jù)生成 21510.2 計算π值 21710.3 中心極限定理 222第11章 新浪網(wǎng)頁數(shù)據(jù) 23011.1 分詞 23211.2 有區(qū)分度的單詞 23411.3 選擇特征 23511.3.1 卡方檢驗 23611.3.2 信息增益 23811.4 主題模型 24211.4.1 潛在語義分析 24211.4.2 概率潛在語義分析 25311.4.3 LDA模型 27211.5 單詞映射為向量 289第12章 2014年阿里巴巴大數(shù)據(jù)競賽 29412.1 試題介紹 29412.2 數(shù)據(jù) 29612.3 思路 29812.3.1 用戶和品牌的各種特征 29812.3.2 二分類模型訓(xùn)練 30012.3.3 比賽考核目標(biāo) 30112.4 計算訓(xùn)練數(shù)據(jù)集 30212.4.1 原始數(shù)據(jù)劃分 30312.4.2 計算特征 30412.4.3 數(shù)據(jù)預(yù)處理標(biāo)識 30412.4.4 用戶-品牌聯(lián)合特征 30812.4.5 用戶特征 31312.4.6 品牌特征 31712.4.7 整合訓(xùn)練數(shù)據(jù)的特征 32212.4.8 計算標(biāo)簽 32312.5 二分類模型訓(xùn)練 32412.5.1 正負(fù)樣本配比 32412.5.2 樸素貝葉斯算法 32512.5.3 邏輯回歸算法 32612.5.4 隨機森林算法 32712.6 提交預(yù)測結(jié)果 328

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號