注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python 3.7網(wǎng)絡(luò)爬蟲(chóng)快速入門(mén)

Python 3.7網(wǎng)絡(luò)爬蟲(chóng)快速入門(mén)

Python 3.7網(wǎng)絡(luò)爬蟲(chóng)快速入門(mén)

定 價(jià):¥49.00

作 者: 王啟明 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787302536475 出版時(shí)間: 2019-10-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 202 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Python 3.7正在成為目前流行的編程語(yǔ)言,而網(wǎng)絡(luò)爬蟲(chóng)又是Python網(wǎng)絡(luò)應(yīng)用中的重要技術(shù),二者的碰撞產(chǎn)生了巨大的火花。本書(shū)在這個(gè)背景下編寫(xiě)而成,詳細(xì)介紹Python 3.7網(wǎng)絡(luò)爬蟲(chóng)技術(shù)。 本書(shū)分為11章,分別介紹Python 3.7爬蟲(chóng)開(kāi)發(fā)相關(guān)的基礎(chǔ)知識(shí)、lxml模塊、BeautifulSoup模塊、正則表達(dá)式、文件處理、多線程爬蟲(chóng)、圖形識(shí)別、Scrapy框架、PyQuery模塊等?;旧厦恳徽露寂溆斜姸嘈》独绦蚺c一個(gè)大實(shí)戰(zhàn)案例。作者還為每一章分別錄制教學(xué)視頻供讀者自學(xué)參考。 本書(shū)內(nèi)容詳盡、示例豐富,是有志于學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)初學(xué)者的參考書(shū),同時(shí)也可作為Python愛(ài)好者拓寬知識(shí)領(lǐng)域、提升編程技術(shù)的參考書(shū)。

作者簡(jiǎn)介

  王啟明,Python培訓(xùn)講師,擁有多年的Python研發(fā)經(jīng)驗(yàn)和授課經(jīng)驗(yàn),始終堅(jiān)持干貨滿滿的授課方式。書(shū)中精選了多年來(lái)實(shí)踐的大量爬蟲(chóng)案例,希望幫助到更多的讀者。

圖書(shū)目錄

目  錄
第1章  簡(jiǎn)識(shí)PYTHON 1
1.1  了解PYTHON 1
1.1.1  Python的概念 1
1.1.2  有趣的Python程序 2
1.2  集成開(kāi)發(fā)環(huán)境 4
1.2.1  安裝Python 3.7 4
1.2.2  從IDLE啟動(dòng)Python 6
1.3  編寫(xiě)自己的個(gè)PYTHON程序:一個(gè)簡(jiǎn)單的問(wèn)候 8
1.4  小結(jié) 11
第2章  PYTHON語(yǔ)法速覽 12
2.1  數(shù)據(jù)類型與變量 12
2.1.1  數(shù)據(jù)類型 12
2.1.2  變量 14
2.2  運(yùn)算符 15
2.2.1  算術(shù)運(yùn)算符 16
2.2.2  比較運(yùn)算符 17
2.2.3  賦值運(yùn)算符 17
2.2.4  邏輯運(yùn)算符 18
2.2.5  位運(yùn)算符 19
2.2.6  成員運(yùn)算符 20
2.2.7  身份運(yùn)算符 21
2.2.8  運(yùn)算符的優(yōu)先級(jí) 21
2.3  使用復(fù)合類型 21
2.3.1  列表 22
2.3.2  元組 26
2.3.3  字典 26
2.3.4  集合 27
2.4  流程控制結(jié)構(gòu) 29
2.4.1  選擇結(jié)構(gòu) 29
2.4.2  重復(fù)結(jié)構(gòu)(循環(huán)結(jié)構(gòu)) 30
2.5  小結(jié) 33
第3章  函  數(shù) 34
3.1  認(rèn)識(shí)函數(shù) 34
3.1.1  什么是函數(shù) 34
3.1.2  創(chuàng)建函數(shù) 35
3.2  使用函數(shù) 35
3.2.1  參數(shù) 36
3.2.2  返回值 38
3.2.3  函數(shù)的遞歸 39
3.3  實(shí)踐一下 40
3.3.1  實(shí)踐一:編寫(xiě)一個(gè)函數(shù) 40
3.3.2  實(shí)踐二:遍歷與計(jì)數(shù) 41
3.4  小結(jié) 42
第4章  LXML模塊和XPATH語(yǔ)法 43
4.1  LXML模塊 43
4.1.1  什么是模塊 43
4.1.2  關(guān)于lxml模塊 44
4.1.3  lxml模塊的安裝 44
4.1.4  lxml庫(kù)的用法 46
4.2  XPATH語(yǔ)法 46
4.2.1  基本語(yǔ)法 46
4.2.2  基本操作 47
4.2.3  lxml庫(kù)的用法 49
4.2.4  XPath范例程序測(cè)試 50
4.3  爬蟲(chóng)LXML解析實(shí)戰(zhàn) 53
4.3.1  爬取豆瓣網(wǎng)站 53
4.3.2  爬取電影天堂 55
4.3.3  爬取貓眼電影 58
4.3.4  爬取騰訊招聘網(wǎng) 61
4.3.5  關(guān)于HTML 63
4.4  小結(jié) 63
第5章  BEAUTIFULSOUP庫(kù) 64
5.1  簡(jiǎn)識(shí)BEAUTIFULSOUP 4 64
5.1.1  安裝與配置 64
5.1.2  基本用法 66
5.2  BEAUTIFULSOUP 對(duì)象 67
5.2.1  創(chuàng)建BeautifulSoup對(duì)象 67
5.2.2  4類對(duì)象 70
5.2.3  遍歷文檔樹(shù) 74
5.2.4  搜索文檔樹(shù) 78
5.3  方法和CSS選擇器 81
5.3.1  find類方法 81
5.3.2  CSS選擇器 82
5.4  爬取示范:使用BEAUTIFULSOUP爬取電影天堂 85
5.4.1  基本思路 85
5.4.2  實(shí)際爬取 85
5.5  小結(jié) 87
第6章  正則表達(dá)式 88
6.1  了解正則表達(dá)式 88
6.1.1  基本概念 88
6.1.2  re模塊 89
6.1.3  compile()方法 89
6.1.4  match()方法 90
6.1.5  group()和groups()方法 90
6.1.6  search()方法 90
6.1.7  findall()方法 92
6.1.8  finditer()方法 93
6.1.9  split()方法 94
6.1.10  sub()方法 94
6.2  抓取 95
6.2.1  抓取標(biāo)簽間的內(nèi)容 95
6.2.2  抓取trtd標(biāo)簽間的內(nèi)容 98
6.2.3  抓取標(biāo)簽中的參數(shù) 99
6.2.4  字符串處理及替換 101
6.3  爬取實(shí)戰(zhàn) 102
6.3.1  獲取數(shù)據(jù) 103
6.3.2  篩選數(shù)據(jù) 104
6.3.3  保存數(shù)據(jù) 107
6.3.4  顯示數(shù)據(jù) 107
6.4  總結(jié) 108
第7章  JSON文件處理、CSV文件處理和MYSQL數(shù)據(jù)庫(kù)操作 109
7.1  簡(jiǎn)識(shí)JSON 109
7.1.1  什么是JSON 109
7.1.2  字典和列表轉(zhuǎn)JSON 110
7.1.3  將JSON數(shù)據(jù)轉(zhuǎn)儲(chǔ)到文件中 111
7.1.4  將一個(gè)JSON字符串加載為Python對(duì)象 111
7.1.5  從文件中讀取JSON 112
7.2  CSV文件處理 113
7.2.1  讀取CSV文件 113
7.2.2  把數(shù)據(jù)寫(xiě)入CSV文件 114
7.2.3  練習(xí) 115
7.3  MYSQL數(shù)據(jù)庫(kù) 117
7.3.1  MySQL數(shù)據(jù)庫(kù)的安裝 117
7.3.2  安裝MySQL模塊 127
7.3.3  連接MySQL 127
7.3.4  執(zhí)行SQL語(yǔ)句 128
7.3.5  創(chuàng)建表 129
7.3.6  插入數(shù)據(jù) 130
7.3.7  查看數(shù)據(jù) 132
7.3.8  修改數(shù)據(jù) 133
7.3.9  刪除數(shù)據(jù) 135
7.3.10  實(shí)踐操作 136
7.4  小結(jié) 139
第8章  多線程爬蟲(chóng) 140
8.1  關(guān)于多線程 140
8.1.1  基本知識(shí) 140
8.1.2  多線程的適用范圍 141
8.2  多線程的實(shí)現(xiàn) 142
8.2.1  使用_thread模塊創(chuàng)建多線程 142
8.2.2  關(guān)于Threading模塊 145
8.2.3  使用函數(shù)方式創(chuàng)建線程 146
8.2.4  傳遞可調(diào)用的類的實(shí)例來(lái)創(chuàng)建線程 148
8.2.5  派生子類并創(chuàng)建子類的實(shí)例 149
8.3  使用多進(jìn)程 150
8.3.1  創(chuàng)建子進(jìn)程 150
8.3.2  將進(jìn)程定義為類 151
8.3.3  創(chuàng)建多個(gè)進(jìn)程 152
8.4  爬取示范:多線程爬取豆瓣電影 153
8.4.1  使用多進(jìn)程進(jìn)行爬取 154
8.4.2  使用多線程進(jìn)行爬取 156
8.5  小結(jié) 158
第9章  圖形驗(yàn)證識(shí)別技術(shù) 159
9.1  圖像識(shí)別開(kāi)源庫(kù):TESSERACT 159
9.1.1  安裝Tesseract 159
9.1.2  設(shè)置環(huán)境變量 164
9.1.3  驗(yàn)證安裝 166
9.2  對(duì)網(wǎng)絡(luò)驗(yàn)證碼的識(shí)別 168
9.2.1  讀取網(wǎng)絡(luò)驗(yàn)證碼并識(shí)別 168
9.2.2  對(duì)驗(yàn)證碼進(jìn)行轉(zhuǎn)化 169
9.3  小結(jié) 170
第10章  SCRAPY框架 171
10.1  了解SCRAPY 171
10.1.1  Scrapy框架概述 171
10.1.2  安裝 173
10.2  開(kāi)發(fā)SCRAPY的過(guò)程 176
10.2.1  Scrapy開(kāi)發(fā)步驟 176
10.2.2  Scrapy保存信息的格式 177
10.2.3  項(xiàng)目中各個(gè)文件的作用 178
10.3  爬蟲(chóng)范例 179
10.3.1  Scrapy爬取美劇天堂 179
10.3.2  Scrapy爬取豆瓣網(wǎng) 182
10.3.3  Scrapy爬取豆瓣網(wǎng)II 186
10.4  總結(jié) 189
第11章  PYQUERY模塊 190
11.1  PYQUERY模塊 190
11.1.1  什么是PyQuery模塊 190
11.1.2  PyQuery模塊的安裝 190
11.2  PYQUERY模塊用法 191
11.2.1  使用字符串初始化PyQuery對(duì)象 191
11.2.2  使用文件初始化PyQuery對(duì)象 192
11.2.3  使用URL初始化PyQuery對(duì)象 193
11.3  CSS篩選器的使用 194
11.3.1  基本CSS選擇器 194
11.3.2  查找節(jié)點(diǎn) 195
11.3.3  遍歷結(jié)果并輸出 197
11.3.4  獲取文本信息 198
11.4  爬蟲(chóng)PYQUERY解析實(shí)戰(zhàn) 200
11.4.1  爬取貓眼票房 200
11.4.2  爬取微博熱搜 201
11.5  小結(jié) 202
 

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)