注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)設(shè)計(jì)/管理寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南

寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南

寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南

定 價(jià):¥59.00

作 者: (美)Ron Zacharski 扎哈爾斯基
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

ISBN: 9787115336354 出版時(shí)間: 2015-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 309 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。大多數(shù)數(shù)據(jù)挖掘的教材都專注于介紹理論基礎(chǔ),因而往往難以理解和學(xué)習(xí)。本書是介紹寫給程序員的一本數(shù)據(jù)挖掘指南,可以幫助讀者動(dòng)手實(shí)踐進(jìn)行數(shù)據(jù)挖掘、集體智慧并構(gòu)建推薦系統(tǒng)。全書共8章,介紹了數(shù)據(jù)挖掘的基本知識(shí)和理論、協(xié)同過(guò)濾、內(nèi)容過(guò)濾及分類、算法評(píng)估、樸素貝葉斯、非結(jié)構(gòu)化文本分類以及聚類等內(nèi)容。全書采用做中學(xué)的方式,用生動(dòng)的圖示、大量的表格、簡(jiǎn)明的公式,實(shí)用的Python代碼示例,闡釋數(shù)據(jù)挖掘的知識(shí)和技能。每章還給出了習(xí)題和練習(xí),幫助讀者鞏固所學(xué)的知識(shí)。本書專注適合對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)分析和推薦系統(tǒng)感興趣的程序員及相關(guān)領(lǐng)域的從業(yè)者閱讀參考;同時(shí),本書也可以作為一本輕松有趣的數(shù)據(jù)挖掘課程教學(xué)參考書。

作者簡(jiǎn)介

  Ron Zacharski是一名軟件開(kāi)發(fā)工程師,曾在威斯康辛大學(xué)獲美術(shù)學(xué)士學(xué)位,之后還在明尼蘇達(dá)大學(xué)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位。博士后期間,他在愛(ài)丁堡大學(xué)研究語(yǔ)言學(xué)。正是基于廣博的學(xué)識(shí),他不僅在新墨西哥州立大學(xué)的計(jì)算研究實(shí)驗(yàn)室工作,期間還接觸過(guò)自然語(yǔ)言處理相關(guān)的項(xiàng)目,而該實(shí)驗(yàn)室曾被《連線》雜志評(píng)為機(jī)器翻譯研究領(lǐng)域翹楚。除此之外,他還曾教授計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、音樂(lè)等課程,是一名博學(xué)多才的科技達(dá)人。王斌博士,中國(guó)科學(xué)院信息工程研究所研究員,博士生導(dǎo)師,中國(guó)科學(xué)院大學(xué)兼職教授,研究方向?yàn)樾畔z索、自然語(yǔ)言處理與數(shù)據(jù)挖掘。主持國(guó)家973、863、國(guó)家自然科學(xué)基金、國(guó)際合作基金、部委及企業(yè)合作等課題近30項(xiàng),發(fā)表學(xué)術(shù)論文130余篇,領(lǐng)導(dǎo)研制的多個(gè)系統(tǒng)上線使用,曾獲國(guó)家科技進(jìn)步二等獎(jiǎng)和北京市科學(xué)技術(shù)二等獎(jiǎng)各一項(xiàng)?,F(xiàn)為中國(guó)中文信息學(xué)會(huì)理事、信息檢索、社會(huì)媒體處理、語(yǔ)言與知識(shí)計(jì)算等多個(gè)專業(yè)委員會(huì)委員、《中文信息學(xué)報(bào)》編委、中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員及中文信息處理專業(yè)委員會(huì)委員。多次擔(dān)任SIGIR、ACL、CIKM等會(huì)議的程序委員會(huì)委員?!缎畔z索導(dǎo)論》、《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、《Mahout實(shí)戰(zhàn)》譯者。2006年起在中國(guó)科學(xué)院大學(xué)講授《現(xiàn)代信息檢索》研究生課程,累計(jì)選課人數(shù)已超過(guò)1500人。迄今培養(yǎng)博士、碩士研究生近40名。

圖書目錄

目  錄
目錄
第1章 數(shù)據(jù)挖掘簡(jiǎn)介及本書使用方法 1
歡迎來(lái)到21世紀(jì) 2
并不只是對(duì)象 5
TB級(jí)挖掘是現(xiàn)實(shí)不是科幻 7
本書體例 9
第2章 協(xié)同過(guò)濾—愛(ài)你所愛(ài) 14
如何尋找相似用戶 15
曼哈頓距離 16
歐氏距離 16
N維下的思考 18
一般化 22
Python中數(shù)據(jù)表示方法及代碼 24
計(jì)算曼哈頓距離的代碼 25
用戶的評(píng)級(jí)差異 28
皮爾遜相關(guān)系數(shù) 30
在繼續(xù)之前稍微休息一下 35
*后一個(gè)公式—余弦相似度 36
相似度的選擇 40
一些怪異的事情 43
k近鄰 44
Python的一個(gè)推薦類 47
一個(gè)新數(shù)據(jù)集 54
第3章 協(xié)同過(guò)濾—隱式評(píng)級(jí)及基于物品的過(guò)濾 56
隱式評(píng)級(jí) 57
調(diào)整后的余弦相似度 67
Slope One算法 76
Slope One算法的粗略描述圖 77
基于Python的實(shí)現(xiàn) 83
加權(quán)Slope One:推薦模塊 88
MovieLens數(shù)據(jù)集 90
第4章 內(nèi)容過(guò)濾及分類—基于物品屬性的過(guò)濾 93
一個(gè)簡(jiǎn)單的例子 98
用Python實(shí)現(xiàn) 101
給出推薦的原因 102
一個(gè)取值范圍的問(wèn)題 104
歸一化 105
改進(jìn)的標(biāo)準(zhǔn)分?jǐn)?shù) 109
歸一化 vs. 不歸一化 111
回到Pandora 112
體育項(xiàng)目的識(shí)別 119
Python編程 123
就是它了 133
汽車MPG數(shù)據(jù) 135
雜談 137
第5章 分類的進(jìn)一步探討—算法評(píng)估及kNN 139
訓(xùn)練集和測(cè)試集 140
10折交叉驗(yàn)證的例子 142
混淆矩陣 146
一個(gè)編程的例子 148
Kappa統(tǒng)計(jì)量 154
近鄰算法的改進(jìn) 159
一個(gè)新數(shù)據(jù)集及挑戰(zhàn) 163
更多數(shù)據(jù)、更好的算法以及一輛破公共汽車 168
第6章 概率及樸素貝葉斯—樸素貝葉斯 170
微軟購(gòu)物車 174
貝葉斯定理 177
為什么需要貝葉斯定理 185
i100 i500 188
用Python編程實(shí)現(xiàn) 191
共和黨 vs. 民主黨 197
數(shù)字 205
Python實(shí)現(xiàn) 214
這種做法會(huì)比近鄰算法好嗎 221
第7章 樸素貝葉斯及文本—非結(jié)構(gòu)化文本分類 226
一個(gè)文本正負(fù)傾向性的自動(dòng)判定系統(tǒng) 228
訓(xùn)練階段 232
第8章 聚類—群組發(fā)現(xiàn) 256
k-means聚類 281
SSE或散度 289
小結(jié) 303
安然公司 305

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)