注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)基于Python的強(qiáng)化學(xué)習(xí)

基于Python的強(qiáng)化學(xué)習(xí)

基于Python的強(qiáng)化學(xué)習(xí)

定 價(jià):¥88.00

作 者: [美]安德里亞·隆薩(Andrea Lonza)劉繼紅 王瑞文譯
出版社: 中國電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787519870379 出版時(shí)間: 2022-12-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書首先介紹在強(qiáng)化學(xué)習(xí)環(huán)境中工作所需的工具、庫和設(shè)置,涵蓋了強(qiáng)化學(xué)習(xí)的構(gòu)成模塊,深入探討基于值的方法,如Q-learning和SARSA算法的應(yīng)用。讀者將學(xué)習(xí)如何結(jié)合使用Q-learning和神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。此外,在學(xué)習(xí)*d*dPG和TD3確定性算法之前,讀者將學(xué)習(xí)策略梯度方法,如TRPO和PPO,以提高性能和穩(wěn)定性。本書還介紹模仿學(xué)習(xí)的原理,以及Dagger如何教智能體飛行。讀者將探索進(jìn)化策略和黑盒優(yōu)化技術(shù)。后,讀者將掌握探索方法,如UCB和UCB1,并開發(fā)一個(gè)名為ESBAS的元算法。

作者簡介

  Andrea Lonza是一名深度學(xué)習(xí)工程師,對人工智能懷有極大的熱情,渴望創(chuàng)造出具有智能行為的機(jī)器。他通過理論性的和工業(yè)應(yīng)用性的機(jī)器學(xué)習(xí)項(xiàng)目獲得了強(qiáng)化學(xué)習(xí)、自然語言處理和計(jì)算機(jī)視覺方面的專業(yè)知識。他還參加過幾次Kaggle比賽,并取得了很好的成績。他總是在尋找引人入勝的挑戰(zhàn),并喜歡證明自己。

圖書目錄

目錄
前言
部分 算法與環(huán)境
第1章 強(qiáng)化學(xué)習(xí)概貌 2
1.1 強(qiáng)化學(xué)習(xí)導(dǎo)論 3
1.1.1 比較強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí) 4
1.1.2 強(qiáng)化學(xué)習(xí)的歷史 5
1.1.3 深度強(qiáng)化學(xué)習(xí) 6
1.2 強(qiáng)化學(xué)習(xí)的要素 7
1.2.1 策略 8
1.2.2 值函數(shù) 9
1.2.3 回報(bào)(獎勵) 10
1.2.4 模型 11
1.3 強(qiáng)化學(xué)習(xí)的應(yīng)用 11
1.3.1 游戲 11
1.3.2 機(jī)器人與工業(yè)4.0 12
1.3.3 機(jī)器學(xué)習(xí) 12
1.3.4 經(jīng)濟(jì)學(xué)與金融 13
1.3.5 醫(yī)療健康 13
1.3.6 智能交通系統(tǒng) 13
1.3.7 能源優(yōu)化與智能電網(wǎng) 13
1.4 本章小結(jié) 13
1.5  思考題 14
1.6  延伸閱讀 14
第2章 強(qiáng)化學(xué)習(xí)過程與OpenAI Gym 15
2.1 環(huán)境設(shè)置 15
2.1.1 安裝OpenAI Gym 16
2.1.2 安裝Roboschool 17
2.2 OpenAI Gym和強(qiáng)化學(xué)習(xí)過程 17
2.2.1 開發(fā)強(qiáng)化學(xué)習(xí)過程 18
2.2.2 了解空間概念 21
2.3 利用TesorFlow開發(fā)強(qiáng)化學(xué)習(xí)模型 22
2.3.1 張量 24
2.3.2 創(chuàng)建計(jì)算圖 27
2.3.3 線性回歸示例 28
2.4 TensorBoard介紹 32
2.5 強(qiáng)化學(xué)習(xí)環(huán)境 34
2.5.1 為什么需要不同的環(huán)境 35
2.5.2 開源環(huán)境 35
2.6 本章小結(jié) 37
2.7  思考題 37
2.8  延伸閱讀 38
第3章 基于動態(tài)規(guī)劃的問題求解 39
3.1 馬爾可夫決策過程 39
3.1.1 策略 41
3.1.2 回報(bào) 41
3.1.3 值函數(shù) 42
3.1.4 貝爾曼方程 43
3.2 強(qiáng)化學(xué)習(xí)算法的類別 43
3.2.1 無模型算法 44
3.2.2 基于模型的強(qiáng)化學(xué)習(xí) 45
3.2.3 算法多樣性 46
3.3 動態(tài)規(guī)劃 46
3.3.1 策略評價(jià)與策略改進(jìn) 47
3.3.2 策略迭代 48
3.3.3 值迭代 52
3.4 本章小結(jié) 55
3.5  思考題 55
3.6  延伸閱讀 56
第二部分 無模型強(qiáng)化學(xué)習(xí)算法
第4章 Q-learning與SARSA的應(yīng)用 58
4.1 無模型學(xué)習(xí) 58
4.1.1 已有經(jīng)驗(yàn) 59
4.1.2 策略評價(jià) 59
4.1.3 探索問題 60
4.2 時(shí)間差分學(xué)習(xí) 60
4.2.1 時(shí)間差分更新 61
4.2.2 策略改進(jìn) 61
4.2.3 比較蒙特卡羅和時(shí)間差分方法 62
4.3 SARSA 62
4.3.1 SARSA介紹 62
4.3.2 算法 62
4.4 應(yīng)用SARSA解決Taxi-v2問題 63
4.5 Q-learning 69
4.5.1 理論 69
4.5.2 算法 70
4.6 應(yīng)用Q-learning解決Taxi-v2問題 71
4.7 比較SARSA和Q-learning 74
4.8 本章小結(jié) 74
4.9  思考題 75
第5章 深度Q神經(jīng)網(wǎng)絡(luò) 76
5.1 深度神經(jīng)網(wǎng)絡(luò)與Q-learning 76
5.1.1 函數(shù)逼近 77
5.1.2 利用神經(jīng)網(wǎng)絡(luò)的Q-learning 77
5.1.3 深度Q-learning的不穩(wěn)定性 78
5.2 DQN 79
5.2.1 解決方案 80
5.2.2 DQN算法 80
5.2.3 模型架構(gòu) 82
5.3 用于Pong的DQN 83
5.3.1 雅達(dá)利游戲 84
5.3.2 預(yù)處理流程 84
5.3.3 DQN實(shí)現(xiàn) 87
5.3.4 結(jié)果 96
5.4 DQN變種 98
5.4.1 DDQN 98
5.4.2 競爭DQN 101
5.4.3 n步DQN 103
5.5 本章小結(jié) 104
5.6  思考題 105
5.7  延伸閱讀 105
第6章 隨機(jī)策略梯度優(yōu)化 106
6.1 策略梯度方法 106
6.1.1 策略的梯度 107
6.1.2 策略梯度定理 108
6.1.3 梯度的計(jì)算 109
6.1.4 策略 109
6.1.5 在線策略梯度 111
6.2 了解REINFORCE算法 111
6.2.1 REINFORCE的實(shí)現(xiàn) 113
6.2.2 利用REINFORCE實(shí)現(xiàn)航天器著陸 117
6.3 帶基線的REINFORCE算法 119
6.3.1 帶基線的REINFORCE算法的原理 119
6.3.2 帶基線的REINFORCE算法的實(shí)現(xiàn) 121
6.4 學(xué)習(xí)AC算法 122
6.4.1 讓評判者幫助行動者學(xué)習(xí) 122
6.4.2 n步AC模型 123
6.4.3 AC算法的實(shí)現(xiàn) 124
6.4.4 用AC算法實(shí)現(xiàn)航天器著陸 127
6.4.5 高級AC算法以及提示和技巧 128
6.5 本章小結(jié) 129
6.6  思考題 129
6.7  延伸閱讀 129
第7章 信賴域策略優(yōu)化和近端策略優(yōu)化 130
7.1 Roboschool 130
7.1.1 Roboschool介紹 130
7.1.2 連續(xù)系統(tǒng)的控制 131
7.2 自然策略梯度 134
7.2.1 自然策略梯度的直觀理解 134
7.2.2 數(shù)學(xué)知識基礎(chǔ) 136
7.2.3 自然梯度的計(jì)算復(fù)雜性 137
7.3 信賴域策略優(yōu)化 138
7.3.1 TRPO算法 138
7.3.2 TRPO算法的實(shí)現(xiàn) 141
7.3.3 TRPO的應(yīng)用 147
7.4 近端策略優(yōu)化 148
7.4.1 PPO簡述 149
7.4.2 PPO算法 149
7.4.3 TRPO算法的實(shí)現(xiàn) 150
7.4.4 PPO的應(yīng)用 154
7.5 本章小結(jié) 155
7.6  思考題 155
7.7  延伸閱讀 156
第8章 確定性策略梯度方法 157
8.1 策略梯度優(yōu)化與Q-learning的結(jié)合 157
8.1.1 兩類算法的優(yōu)缺點(diǎn) 157
8.1.2 確定性策略梯度 158
8.2 深度確定性策略梯度 160
8.2.1 DDPG算法 161
8.2.2 DDPG算法的實(shí)現(xiàn) 163
8.2.3 DDPG應(yīng)用于BipedalWalker-v2 167
8.3 雙延遲深度確定性策略梯度 168
8.3.1 高估偏差問題 169
8.3.2 方差抑制問題 171
8.3.3 TD3應(yīng)用于BipedalWalker 174
8.4 本章小結(jié) 175
8.5  思考題 176
8.6  延伸閱讀 176
第三部分 超越無模型算法
第9章 基于模型的強(qiáng)化學(xué)習(xí) 178
9.1 基于模型的方法 178
9.1.1 基于模型的學(xué)習(xí)概述 179
9.1.2 基于模型的方法的優(yōu)缺點(diǎn) 182
9.2 基于模型的學(xué)習(xí)與無模型學(xué)習(xí)的結(jié)合 183
9.2.1 有用的結(jié)合 183
9.2.2 利用圖像構(gòu)建模型 184
9.3 用于倒立擺的ME-TRPO 185
9.3.1 了解ME-TRPO 186
9.3.2 ME-TRPO的實(shí)現(xiàn) 187
9.3.3 RoboSchool實(shí)驗(yàn) 191
9.4 本章小結(jié) 193
9.5  思考題 194
9.6  延伸閱讀 194
第10章 模仿學(xué)習(xí)與DAgger算法 195
10.1 技術(shù)要求 195
10.2 模仿學(xué)習(xí) 196
10.2.1 駕駛助手示例 197
10.2.2 模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)對比 198
10.2.3 模仿學(xué)習(xí)中的專家作用 199
10.2.4 模仿學(xué)習(xí)的結(jié)構(gòu) 199
10.3 Flappy Bird游戲 201
10.3.1 Flappy Bird介紹 201
10.3.2 如何利用環(huán)境 201
10.4 理解數(shù)據(jù)集聚合算法 202
10.4.1 DAgger算法 203
10.4.2 Dagger算法實(shí)現(xiàn) 204
10.4.3 Flappy Bird游戲結(jié)果分析 209
10.5 反向強(qiáng)化學(xué)習(xí) 210
10.6 本章小結(jié) 210
10.7  思考題 211
10.8  延伸閱讀 211
第11章 黑盒優(yōu)化算法 212
11.1 超越強(qiáng)化學(xué)習(xí) 212
11.1.1 強(qiáng)化學(xué)習(xí)簡要回顧 212
11.1.2 替代方法 213
11.2 進(jìn)化算法的核心 214
11.2.1 遺傳算法 216
11.2.2 進(jìn)化策略 217
11.3 可擴(kuò)展的進(jìn)化策略 218
11.3.1 核心思想 219
11.3.2 可擴(kuò)展進(jìn)化策略的實(shí)現(xiàn) 220
11.4 應(yīng)用于LunarLander的可擴(kuò)展進(jìn)化策略 226
11.5 本章小結(jié) 227
11.6  思考題 228
11.7  延伸閱讀 228
第12章 開發(fā)ESBAS算法 229
12.1 探索與利用 229
12.1.1 探索與利用介紹 229
12.1.2 多臂老虎機(jī) 231
12.2 探索的方法 232
12.2.1 ?貪婪策略 232
12.2.2 UCB算法 233
12.2.3 探索的復(fù)雜性 234
12.3 ESBAS 235
12.3.1 拆箱算法選擇 235
12.3.2 ESBAS介紹 236
12.3.3 算法實(shí)現(xiàn) 237
12.3.4 解決Acrobot問題 241
12.4 本章小結(jié) 244
12.5  思考題 244
12.6  延伸閱讀 245
第13章 應(yīng)對強(qiáng)化學(xué)習(xí)挑戰(zhàn)的實(shí)踐 246
13.1 深度強(qiáng)化學(xué)習(xí)的實(shí)踐 246
13.1.1 選擇合適的算法 247
13.1.2 從0到1 248
13.2 深度強(qiáng)化學(xué)習(xí)的挑戰(zhàn) 250
13.2.1 穩(wěn)定性與可重現(xiàn)性 250
13.2.2 效率 251
13.2.3 泛化 251
13.3 先進(jìn)技術(shù) 252
13.3.1 無監(jiān)督強(qiáng)化學(xué)習(xí) 252
13.3.2 遷移學(xué)習(xí) 253
13.4 現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí) 255
13.4.1 現(xiàn)實(shí)挑戰(zhàn) 256
13.4.2 彌合模擬與現(xiàn)實(shí)世界的差距 257
13.4.3 創(chuàng)建專有環(huán)境 257
13.5 強(qiáng)化學(xué)習(xí)的未來及其社會影響 258
13.6 本章小結(jié) 258
13.7  思考題 259
13.8  延伸閱讀 259
附錄  思考題參考答案 260

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號