注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Scrapy網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

Scrapy網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

Scrapy網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

定 價(jià):¥59.00

作 者: 東郭大貓 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302536208 出版時(shí)間: 2019-09-01 包裝: 平裝
開(kāi)本: 16 頁(yè)數(shù): 242 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  隨著大數(shù)據(jù)分析、大數(shù)據(jù)計(jì)算火熱興起,越來(lái)越多的企業(yè)發(fā)布了數(shù)據(jù)分析崗位,而數(shù)據(jù)分析的基礎(chǔ)則是海量的數(shù)據(jù)。Python中的Scrapy框架就是為了抓取數(shù)據(jù)而設(shè)計(jì)的。本書(shū)是一本Scrapy爬蟲(chóng)框架零基礎(chǔ)起步的實(shí)戰(zhàn)圖書(shū)。 本書(shū)共分11章,第1~2章介紹Python環(huán)境的搭建、編輯器的使用、爬蟲(chóng)的一些基礎(chǔ)知識(shí)(urllib、requests、Selenium、Xpath、CSS、正則表達(dá)式、BeautifulSoup庫(kù))等。第3~8章主要介紹Scrapy框架的原理與使用。第9~11章主要介紹Scrapy的優(yōu)化,包括內(nèi)置服務(wù)、組件優(yōu)化等,最后通過(guò)一個(gè)完整的大型示例對(duì)全書(shū)的知識(shí)點(diǎn)做了應(yīng)用總結(jié)。 本書(shū)入門(mén)門(mén)檻低、淺顯易懂,適合所有Scrapy爬蟲(chóng)和數(shù)據(jù)分析行業(yè)的入門(mén)讀者學(xué)習(xí),也適合高等院校和培訓(xùn)學(xué)校作為爬蟲(chóng)入門(mén)教材和訓(xùn)練手冊(cè)。

作者簡(jiǎn)介

  東郭大貓,常年從事數(shù)據(jù)相關(guān)的工作,擅長(zhǎng)用Python進(jìn)行數(shù)據(jù)的爬取、分析和存儲(chǔ)。使用Python超過(guò)5年,做過(guò)公司內(nèi)部的數(shù)據(jù)爬取培訓(xùn)。

圖書(shū)目錄

目    錄
第1章  Python開(kāi)發(fā)環(huán)境的搭建 1
1.1  PYTHON SDK安裝 1
1.1.1  在Windows上安裝Python 1
1.1.2  在Ubuntu上安裝Python 2
1.2  安裝開(kāi)發(fā)工具PYCHARM社區(qū)版 3
1.3  安裝開(kāi)發(fā)工具VISUAL STUDIO社區(qū)版 5
第2章  爬蟲(chóng)基礎(chǔ)知識(shí) 6
2.1  爬蟲(chóng)原理 6
2.1.1  爬蟲(chóng)運(yùn)行基本流程 6
2.1.2  HTTP請(qǐng)求過(guò)程 8
2.2  網(wǎng)頁(yè)分析方法1:瀏覽器開(kāi)發(fā)人員工具 9
2.2.1  Elements面板 10
2.2.2  Network面板 11
2.3  網(wǎng)頁(yè)分析方法2:XPATH語(yǔ)法 14
2.3.1  XPath節(jié)點(diǎn) 14
2.3.2  XPath語(yǔ)法 15
2.3.3  XPath軸 17
2.3.4  XPath運(yùn)算符 19
2.4  網(wǎng)頁(yè)分析方法3:CSS選擇語(yǔ)法 19
2.4.1  元素選擇器 20
2.4.2  類(lèi)選擇器 21
2.4.3  ID選擇器 21
2.4.4  屬性選擇器 21
2.4.5  后代選擇器 21
2.4.6  子元素選擇器 22
2.4.7  相鄰兄弟選擇器 22
2.5  網(wǎng)頁(yè)分析方法4:正則表達(dá)式 22
2.5.1  提取指定字符 23
2.5.2  預(yù)定義字符集 23
2.5.3  數(shù)量限定 23
2.5.4  分支匹配 24
2.5.5  分組 24
2.5.6  零寬斷言 24
2.5.7  貪婪模式與非貪婪模式 25
2.5.8  Python中的正則表達(dá)式 25
2.6  爬蟲(chóng)常用類(lèi)庫(kù)1:PYTHON中的HTTP基本庫(kù)URLLIB 30
2.6.1  發(fā)送請(qǐng)求 30
2.6.2  使用Cookie 31
2.7  爬蟲(chóng)常用類(lèi)庫(kù)2:更人性化的第三方庫(kù)REQUESTS 33
2.7.1  發(fā)送請(qǐng)求 34
2.7.2  請(qǐng)求頭 35
2.7.3  響應(yīng)內(nèi)容 35
2.7.4  響應(yīng)狀態(tài)碼 36
2.7.5  cookies參數(shù) 37
2.7.6  重定向與請(qǐng)求歷史 37
2.7.7  超時(shí) 38
2.7.8  設(shè)置代理 38
2.7.9  會(huì)話(huà)對(duì)象 38
2.8  爬蟲(chóng)常用類(lèi)庫(kù)3:元素提取利器BEAUTIFULSOUP 39
2.8.1  安裝BeautifulSoup 39
2.8.2  安裝解析器 40
2.8.3  BeautifulSoup使用方法 41
2.8.4  BeautifulSoup對(duì)象 43
2.8.5  遍歷文檔樹(shù) 47
2.8.6  搜索文檔樹(shù) 52
2.8.7  BeautifulSoup中的CSS選擇器 57
2.9  爬蟲(chóng)常用類(lèi)庫(kù)4:SELENIUM操縱瀏覽器 58
2.9.1  安裝Selenium 59
2.9.2  Selenium的基本使用方法 59
2.9.3  Selenium Webdriver的原理 61
2.9.4  Selenium中的元素定位方法 61
2.9.5  Selenium Webdriver基本操作 63
2.9.6  Selenium實(shí)戰(zhàn):抓取拉鉤網(wǎng)招聘信息 64
2.10  爬蟲(chóng)常用類(lèi)庫(kù)5:SCRAPY爬蟲(chóng)框架 67
2.10.1  安裝Scrapy 67
2.10.2  Scrapy簡(jiǎn)介 68
2.11  基本爬蟲(chóng)實(shí)戰(zhàn):抓取CNBETA網(wǎng)站科技類(lèi)文章 69
2.11.1  URL管理器 70
2.11.2  數(shù)據(jù)下載器 71
2.11.3 數(shù)據(jù)分析器 72
2.11.4  數(shù)據(jù)保存器 74
2.11.5  調(diào)度器 75
第3章  Scrapy命令行與Shell 78
3.1  SCRAPY命令行介紹 78
3.1.1  使用startproject創(chuàng)建項(xiàng)目 80
3.1.2  使用genspider創(chuàng)建爬蟲(chóng) 81
3.1.3  使用crawl啟動(dòng)爬蟲(chóng) 82
3.1.4  使用list查看爬蟲(chóng) 82
3.1.5  使用fetch獲取數(shù)據(jù) 83
3.1.6  使用runspider運(yùn)行爬蟲(chóng) 84
3.1.7  通過(guò)view使用瀏覽器打開(kāi)URL 85
3.1.8  使用parse測(cè)試爬蟲(chóng) 85
3.2  SCRAPY SHELL命令行 85
3.2.1  Scrapy Shell的用法 85
3.2.2  實(shí)戰(zhàn):解析名人名言網(wǎng)站 86
第4章  Scrapy爬蟲(chóng) 89
4.1  編寫(xiě)爬蟲(chóng) 89
4.1.1  scrapy.Spider爬蟲(chóng)基本類(lèi) 89
4.1.2  start_requests()方法 90
4.1.3  parse(response)方法 91
4.1.4  Selector選擇器 91
4.2  通用爬蟲(chóng) 94
4.2.1  CrawlSpider 94
4.2.2  XMLFeedSpider 95
4.2.3  CSVFeedSpider 96
4.2.4  SitemapSpider 97
4.3  爬蟲(chóng)實(shí)戰(zhàn) 98
4.3.1  實(shí)戰(zhàn)1:CrawlSpider爬取名人名言 98
4.3.2  實(shí)戰(zhàn)2:XMLFeedSpider爬取伯樂(lè)在線(xiàn)的RSS 102
4.3.3  實(shí)戰(zhàn)3:CSVFeedSpider提取csv文件數(shù)據(jù) 104
4.3.4  實(shí)戰(zhàn)4:SitemapSpider爬取博客園文章 106
第5章  Scrapy管道 109
5.1  管道簡(jiǎn)介 109
5.2  編寫(xiě)自定義管道 110
5.3  下載文件和圖片 113
5.3.1  文件管道 114
5.3.2  圖片管道 117
5.4  數(shù)據(jù)庫(kù)存儲(chǔ)MYSQL 121
5.4.1  在Ubuntu上安裝MySQL 121
5.4.2  在Windows上安裝MySQL 122
5.4.3  MySQL基礎(chǔ) 125
5.4.4  MySQL基本操作 127
5.4.5  Python操作MySQL 129
5.5  數(shù)據(jù)庫(kù)存儲(chǔ)MONGODB 131
5.5.1  在Ubuntu上安裝MongoDB 132
5.5.2  在Windows上安裝MongoDB 132
5.5.3  MongoDB基礎(chǔ) 135
5.5.4  MongoDB基本操作 137
5.5.5  Python操作MongoDB 143
5.6  實(shí)戰(zhàn):爬取鏈家二手房信息并保存到數(shù)據(jù)庫(kù) 144
第6章  Request與Response 157
6.1  REQUEST對(duì)象 157
6.1.1  Request類(lèi)詳解 158
6.1.2  Request回調(diào)函數(shù)與錯(cuò)誤處理 160
6.2  RESPONSE 162
6.2.1  Response類(lèi)詳解 162
6.2.2  Response子類(lèi) 163
第7章  Scrapy中間件 165
7.1  編寫(xiě)自定義SPIDER中間件 165
7.1.1  激活中間件 165
7.1.2  編寫(xiě)Spider中間件 166
7.2  SPIDER內(nèi)置中間件 168
7.2.1  DepthMiddleware爬取深度中間件 168
7.2.2  HttpErrorMiddleware失敗請(qǐng)求處理中間件 168
7.2.3  OffsiteMiddleware過(guò)濾請(qǐng)求中間件 169
7.2.4  RefererMiddleware參考位置中間件 169
7.2.5  UrlLengthMiddleware網(wǎng)址長(zhǎng)度限制中間件 170
7.3  編寫(xiě)自定義下載器中間件 170
7.3.1  激活中間件 170
7.3.2  編寫(xiě)下載器中間件 171
7.4  下載器內(nèi)置中間件 173
7.4.1  CookiesMiddleware 173
7.4.2  HttpProxyMiddleware 174
7.5  實(shí)戰(zhàn):為爬蟲(chóng)添加中間件 174
第8章  Scrapy配置與內(nèi)置服務(wù) 178
8.1  SCRAPY配置簡(jiǎn)介 178
8.1.1  命令行選項(xiàng)(優(yōu)先級(jí)) 178
8.1.2  每個(gè)爬蟲(chóng)內(nèi)配置 179
8.1.3  項(xiàng)目設(shè)置模塊 179
8.1.4  默認(rèn)的命令行配置 181
8.1.5  默認(rèn)全局配置(優(yōu)先級(jí)) 182
8.2  日志 182
8.3  數(shù)據(jù)收集 184
8.4  發(fā)送郵件 187
8.4.1  簡(jiǎn)單例子 187
8.4.2  MailSender類(lèi) 187
8.4.3  在settings.py中對(duì)Mail進(jìn)行設(shè)置 188
8.5  實(shí)戰(zhàn):抓取貓眼電影TOP100榜單數(shù)據(jù) 188
8.5.1  分析頁(yè)面元素 189
8.5.2  創(chuàng)建項(xiàng)目 189
8.5.3  編寫(xiě)items.py 190
8.5.4  編寫(xiě)管道pipelines.py 190
8.5.5  編寫(xiě)爬蟲(chóng)文件top100.py 191
第9章  模擬登錄 194
9.1  模擬提交表單 194
9.2  用COOKIE模擬登錄狀態(tài) 197
9.3  項(xiàng)目實(shí)戰(zhàn) 198
9.3.1  實(shí)戰(zhàn)1:使用FormRequest模擬登錄豆瓣 198
9.3.2  實(shí)戰(zhàn)2:使用Cookie登錄 202
第10章  Scrapy爬蟲(chóng)優(yōu)化 205
10.1  SCRAPY MONGODB實(shí)戰(zhàn):抓取并保存IT之家博客新聞 205
10.1.1  確定目標(biāo) 205
10.1.2  創(chuàng)建項(xiàng)目 206
10.1.3  編寫(xiě)items.py文件 207
10.1.4  編寫(xiě)爬蟲(chóng)文件news.py 207
10.1.5  編寫(xiě)管道pipelines.py 209
10.1.6  編寫(xiě)settings.py 210
10.1.7  運(yùn)行爬蟲(chóng) 211
10.2  用BENCHMARK進(jìn)行本地環(huán)境評(píng)估 212
10.3  擴(kuò)展爬蟲(chóng) 214
10.3.1  增大并發(fā) 214
10.3.2  關(guān)閉Cookie 214
10.3.3  關(guān)閉重試 214
10.3.4  減少下載超時(shí)時(shí)間 215
10.3.5  關(guān)閉重定向 215
10.3.6  AutoThrottle擴(kuò)展 215
第11章  Scrapy項(xiàng)目實(shí)戰(zhàn):爬取某社區(qū)用戶(hù)詳情 217
11.1  項(xiàng)目分析 217
11.1.1  頁(yè)面分析 217
11.1.2  抓取流程 221
11.2  創(chuàng)建爬蟲(chóng) 221
11.2.1  cookies收集器 222
11.2.2  Items類(lèi) 225
11.2.3  Pipeline管道編寫(xiě) 226
11.2.4  Spider爬蟲(chóng)文件 227
11.2.5  Middlewars中間件編寫(xiě) 235
 

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)