注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)采集與爬蟲

大數(shù)據(jù)采集與爬蟲

大數(shù)據(jù)采集與爬蟲

定 價:¥45.00

作 者: 李俊翰,付雯,王正霞,胡心雷 著
出版社: 機械工業(yè)出版社
叢編項: 高等職業(yè)教育系列教材
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787111651260 出版時間: 2020-05-01 包裝: 平裝
開本: 16開 頁數(shù): 206 字數(shù):  

內(nèi)容簡介

  《大數(shù)據(jù)采集與爬蟲》主要講解了如何使用Python編寫網(wǎng)絡(luò)爬蟲程序,內(nèi)容包括Python環(huán)境搭建、Python的基礎(chǔ)語法、爬蟲基礎(chǔ)知識、網(wǎng)絡(luò)基礎(chǔ)知識、常用爬蟲庫和解析庫、數(shù)據(jù)持久化存儲、Web API和異步數(shù)據(jù)抓取技術(shù)、Selenium和ChromeDriver的用法,以及Scrapy爬蟲框架的基本原理和操作。*后介紹了一個網(wǎng)絡(luò)爬蟲的綜合案例,以鞏固前面所學(xué)的知識。《大數(shù)據(jù)采集與爬蟲》適合作為高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)的教材,也適合有一定Python編程經(jīng)驗并且對爬蟲技術(shù)感興趣的讀者閱讀。

作者簡介

暫缺《大數(shù)據(jù)采集與爬蟲》作者簡介

圖書目錄

目錄
前言
任務(wù)1 Python環(huán)境搭建
11 任務(wù)描述
12 Python概述
13 Python編程環(huán)境搭建
131 在Windows操作系統(tǒng)下安裝Python
132 在 Linux操作系統(tǒng)下安裝Python
133 在 Mac OS操作系統(tǒng)下安裝Python
14 安裝集成開發(fā)環(huán)境PyCharm
141 PyCharm概述
142 PyCharm的安裝和運行
15 Python的數(shù)據(jù)類型
151 整型
152 浮點型
153 字符串類型
154 列表類型
155 集合類型
156 字典類型
157 元組類型
16 Python語句與函數(shù)
161 條件判斷語句
162 循環(huán)語句
163 自定義函數(shù)
17 任務(wù)實現(xiàn)
18 小結(jié)
19 習(xí)題
任務(wù)2 實現(xiàn)簡單數(shù)據(jù)采集
21 任務(wù)描述
22 網(wǎng)絡(luò)爬蟲基礎(chǔ)知識
221 網(wǎng)絡(luò)爬蟲概述
222 使用網(wǎng)絡(luò)爬蟲的風(fēng)險
223 Python爬蟲的工作過程
23 網(wǎng)絡(luò)基礎(chǔ)知識
231 HTML
232 URI和URL
233 HTTP
234 Request和Response
24 requests庫的安裝及使用
241 requests庫概述
242 requests庫的安裝
243 requests庫的基本用法
25 lxml庫和BeautifulSoup庫的安裝及使用
251 lxml庫概述
252 BeautifulSoup庫概述
253 lxml庫和BeautifulSoup庫的安裝
254 lxml庫和BeautifulSoup庫的基本用法
26 任務(wù)實現(xiàn)
27 小結(jié)
28 習(xí)題
任務(wù)3 存儲數(shù)據(jù)
31 任務(wù)描述
32 MySQL的安裝及使用
321 MySQL概述
322 MySQL的安裝
323 MySQL的操作
33 PyMySQL的使用
34 CSV和JSON格式
341 CSV格式概述
342 輸出CSV文件頭部
343 使用Python讀取CSV文件數(shù)據(jù)
344 使用Python向CSV文件寫入數(shù)據(jù)
345 JSON格式概述
346 使用Python讀取JSON文件數(shù)據(jù)
347 使用Python向JSON文件寫入數(shù)據(jù)
35 任務(wù)實現(xiàn)
36 小結(jié)
37 習(xí)題
任務(wù)4 使用Web API采集數(shù)據(jù)
41 任務(wù)描述
42 GitHub
421 GitHub概述
422 GitHub的基本用法
43 Web API
431 Web API概述
432 GitHub開放API的數(shù)據(jù)特點
433 GitHub的API請求數(shù)據(jù)
434 獲取API的響應(yīng)數(shù)據(jù)
435 處理API的響應(yīng)數(shù)據(jù)
44 任務(wù)實現(xiàn)
45 小結(jié)
46 習(xí)題
任務(wù)5 使用AJAX采集數(shù)據(jù)
51 任務(wù)描述
52 AJAX
521 AJAX的起源
522 AJAX概述
523 AJAX的特點
524 靜態(tài)數(shù)據(jù)
525 動態(tài)數(shù)據(jù)
526 分析AJAX采集的數(shù)據(jù)
527 提取AJAX采集的數(shù)據(jù)
53 任務(wù)實現(xiàn)
54 小結(jié)
55 習(xí)題
任務(wù)6 主流驗證碼解析
61 驗證碼概述
62 自定義圖形驗證碼解析
621 任務(wù)描述
622 圖形驗證碼概述
623 tesserocr庫概述
624 tesserocr庫的安裝
625 自定義圖形驗證碼的生成
626 使用tesserocr庫解析自定義圖形驗證碼
627 任務(wù)實現(xiàn)
63 滑動驗證碼解析
631 任務(wù)描述
632 滑動驗證碼概述
633 ChromeDriver概述
634 ChromeDriver的安裝
635 Selenium概述
636 Selenium的安裝
637 Selenium和ChromeDriver的基本用法
638 任務(wù)實現(xiàn)
64 點擊式驗證碼解析
641 任務(wù)描述
642 點擊式驗證碼概述
643 聚合數(shù)據(jù)平臺接口概述
644 任務(wù)實現(xiàn)
65 小結(jié)
66 習(xí)題
任務(wù)7 模擬登錄
71 使用Selenium和ChromeDriver實現(xiàn)模擬登錄
711 任務(wù)描述
712 GET概述
713 GET的基本用法
714 POST概述
715 POST的基本用法
716 GET和POST的區(qū)別
717 任務(wù)實現(xiàn)
72 使用Cookie實現(xiàn)模擬登錄
721 任務(wù)描述
722 Cookie概述
723 Session概述
724 Cookie和Session的區(qū)別
725 任務(wù)實現(xiàn)——使用Cookie模擬登錄
726 任務(wù)實現(xiàn)——使用requests庫實現(xiàn)用Cookie和Session模擬登錄
73 小結(jié)
74 習(xí)題
任務(wù)8 使用Scrapy爬蟲框架采集數(shù)據(jù)
81 任務(wù)描述
82 Scrapy
821 Scrapy概述
822 Scrapy的工作原理
83 Scrapy的安裝
831 在Windows操作系統(tǒng)下安裝Scrapy
832 在Linux操作系統(tǒng)下安裝Scrapy
84 Scrapy各組件的用法
841 Selector類
842 Spider類
843 下載器中間件
844 條目管道
845 網(wǎng)絡(luò)爬蟲中間件
85 任務(wù)實現(xiàn)
86 小結(jié)
87 習(xí)題
任務(wù)9 綜合案例
91 任務(wù)描述
92 頁面分析
93 模擬登錄
94 獲取靜態(tài)數(shù)據(jù)
95 獲取動態(tài)數(shù)據(jù)
96 數(shù)據(jù)持久化保存
97 小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號