注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術建筑科學建筑設計Python網絡爬蟲實例教程(視頻講解版)

Python網絡爬蟲實例教程(視頻講解版)

Python網絡爬蟲實例教程(視頻講解版)

定 價:¥49.80

作 者: 齊文光
出版社: 人民郵電出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787115484659 出版時間: 2018-07-01 包裝: 平裝
開本: 頁數: 字數:  

內容簡介

  本書共16章,詳細介紹爬蟲的基礎知識、編寫簡單定向爬蟲和使用Scrapy爬蟲框架。*1~3章介紹爬蟲的基礎知識和網頁解析基礎;第4~8章用實例演示編寫定向爬蟲、模擬登錄、應對反爬蟲和爬取動態(tài)網頁等;第9章介紹Scrapy基礎知識;*10、*11章講解兩個*常用的Scrapy爬蟲類;*12、*13章講解Scrapy應對反爬蟲、向網站提交數據和登錄網站的方法;*14章用實例演示存儲數據到數據庫;*15章簡單講解爬蟲去重、分布式爬蟲編寫和爬蟲部署;*16章為綜合實例,并且簡單介紹爬取數據的分析。本書運用大量實例為讀者演示編寫爬蟲的技巧,每一章都包含本章小結及要求,以幫助讀者鞏固所學內容。本書面向對爬蟲技術感興趣的讀者,介紹使用Python語言編寫爬蟲的各種技巧和方法。對希望深入學習Python編程的初學者,本書也很適合作為進階讀物。

作者簡介

  齊文光 原中國網通山東分公司數據中心工程師 愛好python編程,善于編寫爬蟲和利用python進行數據分析和可視化,對于機器學習和深度學習也有深入研究。

圖書目錄

*1章  網絡爬蟲概述  1

1.1  認識網絡爬蟲  1

1.1.1  網絡爬蟲的含義  1

1.1.2  網絡爬蟲的主要類型  2

1.1.3  簡單網絡爬蟲的架構  3

1.1.4  網絡爬蟲的應用場景  3

1.2  Python網絡爬蟲技術概況  4

1.2.1  Python中實現HTTP請求  4

1.2.2  Python中實現網頁解析  5

1.2.3  Python爬蟲框架  6

1.3  搭建開發(fā)環(huán)境  7

1.3.1  代碼運行環(huán)境  7

1.3.2  開發(fā)編輯器  8

1.4  本章小結及要求  11

*2章  爬蟲基礎  12

2.1  認識HTTP請求  12

2.1.1  HTTP請求的含義  12

2.1.2  HTTP請求信息  12

2.2  爬蟲基礎——Requests庫入門  15

2.2.1  Requests庫的安裝  15

2.2.2  Requests庫的請求方法  16

2.2.3  Requests庫的響應對象  17

2.2.4  響應狀態(tài)碼  17

2.2.5  定制請求頭部  18

2.2.6  重定向與超時  18

2.2.7  傳遞URL參數  19

2.3  爬蟲基礎——Urllib庫基礎  20

2.3.1  Urllib 庫簡介  20

2.3.2  發(fā)送GET請求  20

2.3.3  模擬瀏覽器發(fā)送GET

請求  21

2.3.4  POST發(fā)送一個請求  22

2.3.5  URL解析  23

2.4  本章小結及要求  24

第3章  網頁解析基礎  25

3.1  網頁解析概述  25

3.1.1  常用網頁解析工具  25

3.1.2  HTML源碼簡介  25

3.2  XPath語法基礎  27

3.2.1  Lxml庫的安裝  27

3.2.2  XPath語法基礎——

通過路徑查找元素  28

3.2.3  通過屬性查找元素  30

3.2.4  提取屬性值  31

3.2.5  XPath的*級用法  31

3.3  抓取百度首頁實例  33

3.4  Beautiful Soup庫和正則表達式  37

3.4.1  Beautiful Soup簡介  38

3.4.2  Beautiful Soup基本用法  39

3.4.3  Beautiful Soup標準選擇器  40

3.4.4  正則表達式  41

3.5  本章小結及要求  45

第4章  基礎爬蟲實例  46

4.1  Q房網爬蟲實例  46

4.1.1  網站頁面分析  46

4.1.2  編寫Q房網二手房房源爬蟲

代碼  47

4.1.3  保存爬取到的信息  50

4.2  多層頁面的爬取  51

4.2.1  爬取詳情頁面分析  51

4.2.2  編寫爬取詳情頁面的代碼  52

4.3  下載房源圖片和實現多線程

             爬蟲  55

4.3.1  下載房源圖片  55

4.3.2  實現簡單多線程爬蟲  56

4.4  本章小結及要求  59

第5章  Requests模擬登錄  60

5.1  使用Cookies登錄網站  60

5.1.1  網站的保持登錄機制  60

5.1.2  登錄豆瓣網站  61

5.2  模擬登錄網站  63

5.2.1  豆瓣網站的登錄分析  63

5.2.2  Requests會話對象  66

5.2.3  編寫Requests登錄豆瓣

網站的代碼  67

5.3  驗證碼的處理  68

5.3.1  帶驗證碼的網站登錄分析  68

5.3.2  驗證碼的識別和處理  70

5.3.3  編寫帶驗證碼的豆瓣網站

登錄代碼  71

5.4  本章小結及要求  73

第6章  認識和應對反爬蟲  74

6.1  常用的網站反爬蟲策略及應對

             措施  74

6.1.1  常用的網站反爬蟲策略  74

6.1.2  應對網站反爬蟲的措施  75

6.2  使用IP代理的方法  76

6.2.1  Requests中使用代理IP  76

6.2.2  獲取免費代理IP  77

6.3  使用IP代理爬取微信文章  78

6.3.1  分析微信文章的搜索頁面

及其URL的構造特點  78

6.3.2  編寫爬蟲代碼  80

6.4  本章小結及要求  82

第7章  動態(tài)網頁的抓取  84

7.1  動態(tài)網頁及其爬取方法  84

7.1.1  動態(tài)網頁的含義  84

7.1.2  動態(tài)網頁的爬取辦法  85

7.2  動態(tài)網頁的爬取技巧  86

7.2.1  鏈家經紀人頁面分析  86

7.2.2  鏈家經紀人爬蟲實現  88

7.3  Selenium庫的安裝與使用  90

7.3.1  Selenium庫的安裝  90

7.3.2  chromedriver的安裝和使用  91

7.3.3  Selenium的簡單使用  92

7.4  爬取新浪微博網站  95

7.4.1  新浪微博網站爬取分析  95

7.4.2  新浪微博網站爬蟲實現  95

7.4.3  爬蟲的簡單去重  98

7.4.4  使用Chrome瀏覽器的

headless模式  100

7.5  本章小結及要求  101

第8章  動態(tài)網頁與應對反爬蟲

                綜合實例  102

8.1  拉勾網網站分析  102

8.1.1  拉勾網網站頁面初步分析  102

8.1.2  解析json數據和招聘崗位

詳情頁分析  105

8.2  拉勾網爬蟲實現  107

8.2.1  拉勾網爬蟲的初步實現  107

8.2.2  拉勾網爬蟲的進一步

完善  109

8.3  探索拉勾網反爬蟲機制  110

8.4  本章小結及要求  113

第9章  Scrapy爬蟲框架基礎  114

9.1  Scrapy爬蟲框架簡介與安裝  114

9.1.1  Scrapy爬蟲框架簡介  114

9.1.2  Scrapy爬蟲框架的安裝  114

9.2  Scrapy目錄結構和簡單爬蟲

             實例  116

9.2.1  Scrapy目錄結構  116

9.2.2  百度爬蟲實現  119

9.2.3  Scrapy選擇器  120

9.3  Scrapy命令行工具、選擇器、

             數據容器  122

9.3.1  Scrapy常用命令行工具  122

9.3.2  Scrapy選擇器*級應用  124

9.3.3  Scrapy數據容器  125

9.4  本章小結及要求  126

*10章  BasicSpider類和

                 圖片下載  127

10.1  BasicSpider類  127

10.1.1  Scrapy的爬蟲類和模板  127

10.1.2  BasicSpider類簡介  128

10.2  爬取我愛我家二手房房源

               數據  129

10.2.1  我愛我家網站分析  129

10.2.2  我愛我家爬蟲項目實現  131

10.2.3  數據的快捷輸出  133

10.3  圖片下載和翻頁的另一種

               方法  134

10.3.1  Scrapy圖片下載簡介  134

10.3.2  我愛我家房源圖片下載  134

10.3.3  翻頁的另一種方法  135

10.4  本章小結及要求  137

*11章  CrawlSpider類和Scrapy

                 框架概覽  138

11.1  CrawlSpider類簡介  138

11.2  房天下二手房房源爬蟲  139

11.2.1  房天下網站分析  139

11.2.2  房天下二手房房源爬蟲

  實現  140

11.3  Scrapy架構  143

11.3.1  Scrapy架構概覽  143

11.3.2  Scrapy中的數據流  144

11.4  本章小結及要求  145

*12章  Scrapy應對反爬蟲

                  策略  146

12.1  常用的反爬蟲設置  146

12.2  下載器中間件  148

12.2.1  下載器中間件簡介  148

12.2.2  激活下載器中間件  149

12.2.3  編寫下載器中間件  150

12.3  設置隨機用戶代理和IP代理  150

12.3.1  設置隨機用戶代理  150

12.3.2  設置隨機IP代理  152

12.4  本章小結及要求  153

*13章  登錄網站和提交數據  154

13.1  Cookies登錄網站的*級技巧  154

13.1.1  Request對象  154

13.1.2  利用Cookies登錄網站的

  技巧  155

13.2  使用FormRequest向網站提交

               數據  157

13.2.1  FormRequest類  157

13.2.2  爬取Q房網二手房房源  158

13.3  Scrapy登錄網站的*級技巧  159

13.3.1  FormRequest.from_response()

 方法  159

13.3.2  利用Scrapy登錄網站的

  技巧  160

13.4  本章小結及要求  161

*14章  存儲數據到數據庫  162

14.1  MongoDB的安裝與使用  162

14.1.1  Scrapy存儲數據與

  MongoDB簡介  162

14.1.2  MongoDB的安裝  162

14.1.3  MongoDB的配置與啟動  163

14.1.4  MongoDB的可視化管理  164

14.2  爬取鏈家經紀人成交數據  165

14.2.1  鏈家移動頁面分析  165

14.2.2  定義Items、編寫spider  168

14.3  設置鏈家網爬蟲pipeline  171

14.3.1  在Python中操作

  MongoDB  171

14.3.2  配置pipeline  174

14.3.3  在settings中啟用pipeline  175

14.4  存儲數據到MySQL  175

14.4.1  使用pymysql操作MySQL

  數據庫  175

14.4.2  把鏈家經紀人成交數據存儲

  到MySQL數據庫  176

14.5  本章小結及要求  177

*15章  分布式爬蟲與爬蟲部署  178

15.1  分布式爬蟲原理與Redis的

               安裝  178

15.1.1  Scrapy分布式爬蟲原理  178

15.1.2  Redis的安裝  179

15.2  scrapy_redis實現分布式爬蟲  181

15.2.1  scrapy_redis庫  181

15.2.2  分布式爬蟲的部署和存儲  182

15.3  使用Scrapyd部署爬蟲  183

15.3.1  Scrapyd簡介和安裝  183

15.3.2  使用scrapyd-client部署

  爬蟲  185

15.4  Scrapy爬蟲去重  187

15.4.1  Scrapy去重方案  187

15.4.2  Bloom Filter過濾  188

15.5  本章小結及要求  189

*16章  項目實戰(zhàn)——知乎用戶

                  爬蟲及數據分析  190

16.1  知乎用戶爬蟲——知乎網站

               分析  190

 

16.1.1  知乎網站初步分析  190

16.1.2  知乎網站進一步分析  192

16.2  知乎爬蟲的實現  194

16.2.1  編寫知乎爬蟲代碼  194

16.2.2  使用MongoDB和scrapy_redis

   搭建分布式爬蟲  196

16.3  爬蟲數據分析  197

16.3.1  爬蟲數據分析工具  197

16.3.2  知乎用戶數據加載  199

16.3.3  爬蟲數據簡單分析  200

16.4  本章小結及要求  206


本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號