注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)爬蟲原理與實(shí)踐:基于C#語言

網(wǎng)絡(luò)爬蟲原理與實(shí)踐:基于C#語言

網(wǎng)絡(luò)爬蟲原理與實(shí)踐:基于C#語言

定 價(jià):¥79.00

作 者: 李健 種惠芳
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111716945 出版時(shí)間: 2022-12-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書基于C#語言介紹網(wǎng)絡(luò)爬蟲開發(fā)的基本原理、技巧和應(yīng)用實(shí)例,適合網(wǎng)絡(luò)爬蟲開發(fā)的愛好者和研究者閱讀。讀者*好具備一定的編程基礎(chǔ),或者正在學(xué)習(xí)C#編程,以便更好地理解本書的內(nèi)容。本書具有以下特點(diǎn):1)內(nèi)容簡(jiǎn)明、由淺入深。本書不追求內(nèi)容上的面面俱到,而是圍繞網(wǎng)絡(luò)爬蟲的核心環(huán)節(jié),介紹其基本原理和實(shí)現(xiàn)方法,并進(jìn)行適當(dāng)?shù)墓δ軘U(kuò)展。與其他同類書籍相比,本書篇幅適中,適合初學(xué)者閱讀。2)實(shí)例豐富,代碼翔實(shí)。書中盡量選擇邏輯簡(jiǎn)明、功能完整的典型實(shí)例,從需求、設(shè)計(jì)、實(shí)現(xiàn)的角度分別進(jìn)行介紹。而且,幾乎所有實(shí)例都給出了主要實(shí)現(xiàn)代碼,并對(duì)關(guān)鍵代碼進(jìn)行了詳細(xì)注釋,方便讀者進(jìn)行實(shí)踐。

作者簡(jiǎn)介

  李健,博士,畢業(yè)于解放軍信息工程大學(xué),后留校任教至今。主要研究方向?yàn)榫W(wǎng)絡(luò)安全、擬態(tài)安全、軟件安全等。參與過國(guó)家863、國(guó)家自然科學(xué)基金等項(xiàng)目,以及省市級(jí)研發(fā)項(xiàng)目,發(fā)表論文20余篇。

圖書目錄

目  錄
前言
第1章 網(wǎng)絡(luò)爬蟲概述1
1.1 網(wǎng)絡(luò)基礎(chǔ)1
1.1.1 網(wǎng)絡(luò)的基本概念1
1.1.2 HTTP6
1.1.3 會(huì)話機(jī)制11
1.2 網(wǎng)頁(yè)知識(shí)14
1.2.1 HTML14
1.2.2 CSS17
1.2.3 JavaScript20
1.3 網(wǎng)絡(luò)爬蟲的原理22
1.3.1 網(wǎng)絡(luò)爬蟲概述22
1.3.2 Robots協(xié)議25
1.3.3 網(wǎng)絡(luò)爬蟲框架29
第2章 C#編程基礎(chǔ)31
2.1 C#語言概述31
2.1.1 C#與.NET框架31
2.1.2 開發(fā)環(huán)境33
2.1.3 語言生態(tài)37
2.2 數(shù)據(jù)和運(yùn)算40
2.2.1 C#數(shù)據(jù)類型40
2.2.2 常用運(yùn)算符45
2.3 流程控制50
2.3.1 分支結(jié)構(gòu)51
2.3.2 循環(huán)結(jié)構(gòu)54
2.4 常用數(shù)據(jù)結(jié)構(gòu)56
2.4.1 字符串56
2.4.2 數(shù)組60
2.4.3 列表62
2.4.4 字典65
第3章 網(wǎng)絡(luò)資源下載70
3.1 同步下載70
3.1.1 網(wǎng)頁(yè)下載70
3.1.2 編碼檢測(cè)72
3.1.3 參數(shù)設(shè)置76
3.2 異步下載83
3.2.1 實(shí)現(xiàn)方式83
3.2.2 性能分析85
3.3 通用資源下載器 86
3.3.1 下載器的設(shè)計(jì)86
3.3.2 下載器的實(shí)現(xiàn)88
第4章 網(wǎng)頁(yè)數(shù)據(jù)抽取95
4.1 正則表達(dá)式抽取95
4.1.1 正則表達(dá)式簡(jiǎn)介95
4.1.2 使用Regex類97
4.2 XPath抽取100
4.2.1 XPath簡(jiǎn)介100
4.2.2 使用HtmlAgilityPack103
4.3 HTML解析器107
4.4 綜合實(shí)例:新聞資訊爬蟲110
4.4.1 爬蟲設(shè)計(jì)110
4.4.2 爬蟲實(shí)現(xiàn)111
第5章 其他數(shù)據(jù)抽取119
5.1 XML數(shù)據(jù)抽取119
5.1.1 XML簡(jiǎn)介119
5.1.2 使用System.Xml120
5.2 JSON數(shù)據(jù)抽取123
5.2.1 JSON簡(jiǎn)介123
5.2.2 使用Newtonsoft.Json125
5.3 綜合實(shí)例1:天氣爬蟲128
5.3.1 問題描述與分析128
5.3.2 爬蟲設(shè)計(jì)131
5.3.3 爬蟲實(shí)現(xiàn)131
5.4 綜合實(shí)例2:音樂爬蟲136
5.4.1 問題描述136
5.4.2 逆向分析138
5.4.3 爬蟲設(shè)計(jì)141
5.4.4 爬蟲實(shí)現(xiàn)143
第6章 數(shù)據(jù)存儲(chǔ)150
6.1 數(shù)據(jù)的維度150
6.2 文件存儲(chǔ)151
6.2.1 低維數(shù)據(jù)存儲(chǔ)151
6.2.2 高維數(shù)據(jù)存儲(chǔ)154
6.3 數(shù)據(jù)庫(kù)存儲(chǔ)158
6.3.1 MySQL的安裝和配置158
6.3.2 將數(shù)據(jù)存入MySQL162
第7章 爬蟲控制167
7.1 爬蟲搜索方式167
7.1.1 深度優(yōu)先搜索167
7.1.2 廣度優(yōu)先搜索171
7.1.3 性能分析172
7.2 爬蟲控制器175
7.2.1 控制器設(shè)計(jì)175
7.2.2 控制器的實(shí)現(xiàn)176
7.2.3 實(shí)時(shí)控制器179
7.3 綜合實(shí)例:站內(nèi)文章爬蟲183
7.3.1 爬蟲設(shè)計(jì)183
7.3.2 爬蟲實(shí)現(xiàn)185
7.3.3 爬蟲測(cè)試186
第8章 多線程爬蟲189
8.1 多線程機(jī)制189
8.1.1 Thread對(duì)象189
8.1.2 BackgroundWorker控件192
8.1.3 系統(tǒng)線程池194
8.2 多線程爬蟲197
8.2.1 實(shí)現(xiàn)方法197
8.2.2 性能對(duì)比199
8.3 自定義線程池202
8.3.1 線程池設(shè)計(jì)202
8.3.2 線程池實(shí)現(xiàn)203
8.3.3 性能測(cè)試206
8.4 多線程爬蟲控制器207
8.4.1 多線程控制器實(shí)現(xiàn)207
8.4.2 訪問序列分析210
第9章 使用代理213
9.1 代理機(jī)制213
9.1.1 使用WebProxy對(duì)象213
9.1.2 使用全局代理215
9.2 自定義代理池217
9.2.1 代理池設(shè)計(jì)217
9.2.2 代理池實(shí)現(xiàn)218
第10章 模擬瀏覽器225
10.1 瀏覽器的工作原理225
10.1.1 網(wǎng)頁(yè)解析過程225
10.1.2 常見的瀏覽器內(nèi)核226
10.2 使用瀏覽器內(nèi)核226
10.2.1 Trident內(nèi)核226
10.2.2 Gecko內(nèi)核231
10.3 綜合實(shí)例:網(wǎng)頁(yè)翻譯爬蟲240
10.3.1 問題描述240
10.3.2 爬蟲設(shè)計(jì)241
10.3.3 爬蟲實(shí)現(xiàn)242
10.3.4 算法改進(jìn)247
第11章 可視化模板配置250
11.1 可視化模板配置方法250
11.1.1 抽取原理250
11.1.2 模板表示253
11.1.3 可視化配置254
11.2 綜合實(shí)例:可視化網(wǎng)頁(yè)文章
   爬蟲259
11.2.1 爬蟲設(shè)計(jì)259
11.2.2 爬蟲實(shí)現(xiàn)260
參考文獻(xiàn)264

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)