注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡軟件與程序設計Python3網(wǎng)絡爬蟲寶典

Python3網(wǎng)絡爬蟲寶典

Python3網(wǎng)絡爬蟲寶典

定 價:¥79.00

作 者: 韋世東 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121394065 出版時間: 2020-09-01 包裝: 平裝
開本: 16開 頁數(shù): 272 字數(shù):  

內(nèi)容簡介

  本書從實際的爬蟲業(yè)務需求延伸到知識點和具體實現(xiàn),并詳細介紹了其中的原理。首先帶領(lǐng)讀者領(lǐng)略爬蟲程序的構(gòu)成和完整鏈條,學習自動化工具的應用場景和基本使用;接著介紹了增量爬取的分類和具體實現(xiàn)、基于Redis 的分布式爬蟲實現(xiàn)和基于RabbitMQ 的分布式爬蟲實現(xiàn),通過閱讀論文和源碼剖析詳細介紹了高準確率的網(wǎng)頁正文自動化提取方法;然后通過源碼調(diào)試了解到與Python 項目的部署和調(diào)度相關(guān)的知識,進而動手實踐,編寫了一款具備權(quán)限控制、Python 通用項目部署、定時調(diào)度、異常監(jiān)控和釘釘機器人消息通知的爬蟲項目管理平臺;最后通過解讀分布式調(diào)度平臺的核心架構(gòu),幫助大家了解分布式架構(gòu)中最為重要的節(jié)點通信、文件同步等知識。本書適合爬蟲工程師、爬蟲技術(shù)愛好者和Python 開發(fā)者閱讀,也適合爬蟲團隊管理者、高校教師和培訓機構(gòu)的講師閱讀。

作者簡介

  韋世東, 資深爬蟲工程師、2019 華為云·云享專家、掘金社區(qū)優(yōu)秀作者、GitChat 認證作者、夜幕團隊(Night Team)成員、《Python3 反爬蟲原理與繞過實戰(zhàn)》作者,對反爬蟲和逆向有研究,精通爬蟲架構(gòu)設計和工程鏈路實踐,搭建過日流量億級的爬蟲架構(gòu)。

圖書目錄

目錄
第1 章 爬蟲程序的構(gòu)成和完整鏈條 ........................................................................ 1
1.1 一個簡單的爬蟲程序 ................................................................................ 1
1.2 爬蟲的完整鏈條 ........................................................................................ 3
1.3 爬取下來的數(shù)據(jù)被用在什么地方 ............................................................ 7
1.4 爬蟲工程師常用的庫 .............................................................................. 11
1.4.1 網(wǎng)絡請求庫 .................................................................................. 11
1.4.2 網(wǎng)頁文本解析............................................................................... 19
1.5 數(shù)據(jù)存儲 .................................................................................................. 30
1.5.1 將數(shù)據(jù)存入MySQL 數(shù)據(jù)庫 ........................................................ 31
1.5.2 將數(shù)據(jù)存入MongoDB 數(shù)據(jù)庫 .................................................... 34
1.5.3 將數(shù)據(jù)存入Redis 數(shù)據(jù)庫 ............................................................ 36
1.5.4 Excel 文件的讀寫 ........................................................................ 38
1.6 小試牛刀——出版社新聞資訊爬蟲 ....................................................... 42
實踐題 ............................................................................................................... 46
本章小結(jié) ........................................................................................................... 47
第2 章 自動化工具的使用 ...................................................................................... 48
2.1 網(wǎng)頁渲染工具 .......................................................................................... 48
2.1.1 WebDriver 是什么 ........................................................................ 51
2.1.2 Selenium 的介紹和基本使用 ....................................................... 52
2.1.3 Pyppeteer 的介紹和基本使用 ...................................................... 59
2.1.4 Splash 知識擴展 ........................................................................... 61
本節(jié)小結(jié) .................................................................................................. 62
2.2 App 自動化工具 ...................................................................................... 62
2.2.1 Android 調(diào)試橋 ............................................................................ 62
2.2.2 Airtest Project 與Poco ................................................................. 64
VIII Python3 網(wǎng)絡爬蟲寶典
2.2.3 爬取App 中的圖片 ...................................................................... 75
2.2.4 控制多臺設備............................................................................... 78
本節(jié)小結(jié) .................................................................................................. 79
實踐題 ............................................................................................................... 79
本章小結(jié) ........................................................................................................... 79
第3 章 增量爬取的原理與實現(xiàn) .............................................................................. 80
3.1 增量爬取的分類和實現(xiàn)原理 .................................................................. 81
3.1.1 增量爬取的分類 ........................................................................... 81
3.1.2 增量爬取的實現(xiàn)原理 ................................................................... 83
本節(jié)小結(jié) .................................................................................................. 88
3.2 增量池的復雜度和效率 .......................................................................... 88
3.2.1 增量池的時間復雜度 ................................................................... 88
3.2.2 增量池的空間復雜度 ................................................................... 95
本節(jié)小結(jié) ................................................................................................ 103
3.3 Redis 的數(shù)據(jù)持久化 .............................................................................. 103
3.3.1 持久化方式的分類和特點 ......................................................... 103
3.3.2 RDB 持久化的實踐 ................................................................... 106
3.3.3 AOF 持久化的實踐 .................................................................... 112
3.3.4 Redis 密碼持久化 ...................................................................... 115
本節(jié)小結(jié) ................................................................................................ 115
實踐題 ............................................................................................................. 115
本章小結(jié) ......................................................................................................... 116
第4 章 分布式爬蟲的設計與實現(xiàn) ........................................................................ 117
4.1 分布式爬蟲的原理和分類 .................................................................... 117
4.1.1 分布式爬蟲的原理 ..................................................................... 117
4.1.2 分布式爬蟲的分類 ..................................................................... 120
4.1.3 共享隊列的選擇 ......................................................................... 122
本節(jié)小結(jié) ................................................................................................ 125
4.2 分布式爬蟲庫Scrapy-Redis .................................................................. 126
4.2.1 Scrapy-Redis 的介紹和基本使用 .............................................. 127
4.2.2 去重器、調(diào)度器和隊列的源碼解析 ......................................... 129
目錄 IX
本節(jié)小結(jié) ................................................................................................ 134
4.3 基于Redis 的分布式爬蟲 ..................................................................... 134
4.3.1 對等分布式爬蟲的實現(xiàn) ............................................................. 135
4.3.2 主從分布式爬蟲的實現(xiàn) ............................................................. 139
本節(jié)小結(jié) ................................................................................................ 141
4.4 基于RabbitMQ 的分布式爬蟲 ............................................................. 141
4.4.1 RabbitMQ 的安裝和基本操作 ................................................... 142
4.4.2 分布式爬蟲的具體實現(xiàn) ............................................................. 146
本節(jié)小結(jié) ................................................................................................ 152
實踐題 ............................................................................................................. 152
本章小結(jié) ......................................................................................................... 152
第5 章 網(wǎng)頁正文自動化提取方法 ........................................................................ 153
5.1 Python Readability ................................................................................. 155
5.2 基于文本及符號密度的網(wǎng)頁正文提取方法 ......................................... 158
5.3 GeneralNewsExtractor ............................................................................ 162
5.3.1 GeneralNewsExtractor 的安裝和使用 ....................................... 162
5.3.2 GeneralNewsExtractor 的源碼解讀 ........................................... 165
本節(jié)小結(jié) ................................................................................................ 175
本章小結(jié) ............................................................

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號