注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計程序設(shè)計綜合Python強化學習:算法、核心技術(shù)與行業(yè)應(yīng)用

Python強化學習:算法、核心技術(shù)與行業(yè)應(yīng)用

Python強化學習:算法、核心技術(shù)與行業(yè)應(yīng)用

定 價:¥129.00

作 者: 埃內(nèi)斯·比爾金
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111734895 出版時間: 2023-10-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書使用受現(xiàn)實世界商業(yè)和行業(yè)問題啟發(fā)的實際示例來講授強化學習技術(shù)的相關(guān)知識。本書分為四部分:部分涵蓋強化學習的必要背景,包括定義、數(shù)學基礎(chǔ)和強化學習解決方案的概述;第二部分深入介紹先進的強化學習算法(規(guī)?;纳疃萉-學習、基于策略的方法、基于模型的方法、多智能體強化學習等),包括每種算法的優(yōu)缺點;第三部分介紹強化學習中的高級技術(shù),包括機器教學、泛化和域隨機化、元強化學習等主題,還涵蓋強化學習中有助于改進模型的各種高級主題;第四部分講解強化學習的各種應(yīng)用,例如自主系統(tǒng)、供應(yīng)鏈管理、營銷和金融、智慧城市與網(wǎng)絡(luò)安全等,并討論強化學習領(lǐng)域的一些挑戰(zhàn)及未來方向。學完本書,你將掌握如何訓練和部署自己的強化學習智能體來解決強化學習問題。

作者簡介

暫缺《Python強化學習:算法、核心技術(shù)與行業(yè)應(yīng)用》作者簡介

圖書目錄


CONTENTS
目  錄
譯者序
前言
作者簡介
審校者簡介
第一部分 強化學習基礎(chǔ)
第1章 強化學習簡介 2
1.1 為什么選擇強化學習 2
1.2 機器學習的三種范式 3
1.2.1 監(jiān)督學習 3
1.2.2 無監(jiān)督學習 4
1.2.3 強化學習 4
1.3 強化學習應(yīng)用領(lǐng)域和成功案例 5
1.3.1 游戲 6
1.3.2 機器人技術(shù)和自主系統(tǒng) 7
1.3.3 供應(yīng)鏈 8
1.3.4 制造業(yè) 8
1.3.5 個性化和推薦系統(tǒng) 9
1.3.6 智慧城市 9
1.4 強化學習問題的元素 10
1.4.1 強化學習概念 10
1.4.2 將井字棋游戲建模為強化
學習問題 11
1.5 設(shè)置強化學習環(huán)境 12
1.5.1 硬件要求 12
1.5.2 操作系統(tǒng) 13
1.5.3 軟件工具箱 13
1.6 總結(jié) 14
1.7 參考文獻 15
第2章 多臂老虎機 17
2.1 探索–利用權(quán)衡 17
2.2 什么是多臂老虎機問題 18
2.2.1 問題定義 18
2.2.2 一個簡單多臂老虎機問題
的實驗 19
2.3 案例研究:在線廣告 22
2.4 A/B/n測試 23
2.4.1 符號 23
2.4.2 應(yīng)用于在線廣告場景 24
2.4.3 A/B/n測試的優(yōu)缺點 27
2.5 ε-貪心策略行動 27
2.5.1 應(yīng)用于在線廣告場景 27
2.5.2 ε-貪心策略行動的優(yōu)缺點 29
2.6 使用置信上界進行行動選擇 30
2.6.1 應(yīng)用于在線廣告場景 30
2.6.2 使用置信上界的優(yōu)缺點 32
2.7 湯普森(后)采樣 33
2.7.1 應(yīng)用于在線廣告場景 33
2.7.2 湯普森采樣的優(yōu)缺點 36
2.8 總結(jié) 36
2.9 參考文獻 36
第3章 上下文多臂老虎機 37
3.1 為什么我們需要函數(shù)近似 37
3.2 對上下文使用函數(shù)近似 38
3.2.1 案例研究:使用合成用戶
數(shù)據(jù)的上下文在線廣告 39
3.2.2 使用正則化邏輯斯諦回歸
的函數(shù)近似 42
3.2.3 目標函數(shù):悔值小化 45
3.2.4 解決在線廣告問題 46
3.3 對行動使用函數(shù)近似 50
3.3.1 案例研究:使用來自美國
人口普查的用戶數(shù)據(jù)的上
下文在線廣告 51
3.3.2 使用神經(jīng)網(wǎng)絡(luò)進行函數(shù)
近似 55
3.3.3 計算悔值 57
3.3.4 解決在線廣告問題 57
3.4 多臂老虎機和上下文老虎機的
其他應(yīng)用 59
3.4.1 推薦系統(tǒng) 59
3.4.2 網(wǎng)頁/應(yīng)用程序功能設(shè)計 60
3.4.3 醫(yī)療保健 60
3.4.4 動態(tài)定價 60
3.4.5 金融 60
3.4.6 控制系統(tǒng)調(diào)整 60
3.5 總結(jié) 61
3.6 參考文獻 61
第4章 馬爾可夫決策過程的制定 63
4.1 馬爾可夫鏈 63
4.1.1 具有馬爾可夫性的隨機
過程 63
4.1.2 馬爾可夫鏈中的狀態(tài)分類 65
4.1.3 轉(zhuǎn)移和穩(wěn)態(tài)行為 66
4.1.4 示例:網(wǎng)格世界中的n-
步行為 67
4.1.5 示例:一個可遍歷馬爾可
夫鏈中的樣本路徑 69
4.1.6 半馬爾可夫過程和連續(xù)時
間馬爾可夫鏈 70
4.2 引入獎勵:馬爾可夫獎勵過程 70
4.2.1 將獎勵附加到網(wǎng)格世界
示例 71
4.2.2 不同初始化的平均獎勵之
間的關(guān)系 72
4.2.3 回報、折扣和狀態(tài)值 72
4.2.4 解析式地計算狀態(tài)值 73
4.2.5 迭代式地估計狀態(tài)值 74
4.3 引入行動:馬爾可夫決策過程 75
4.3.1 定義 75
4.3.2 網(wǎng)格世界作為馬爾可夫決
策過程 76
4.3.3 狀態(tài)值函數(shù) 77
4.3.4 行動值函數(shù) 77
4.3.5 優(yōu)狀態(tài)值和行動值
函數(shù) 78
4.3.6 貝爾曼優(yōu)性 78
4.4 部分可觀測的馬爾可夫決策過程 79
4.5 總結(jié) 80
4.6 練習 80
4.7 參考文獻 81
第5章 求解強化學習問題 82
5.1 探索動態(tài)規(guī)劃 82
5.1.1 示例用例:食品卡車的庫存補充 82
5.1.2 策略評估 85
5.1.3 策略迭代 90
5.1.4 值迭代 94
5.1.5 動態(tài)規(guī)劃方法的缺點 95
5.2 用蒙特卡羅法訓練智能體 96
5.2.1 蒙特卡羅預(yù)測 97
5.2.2 蒙特卡羅控制 104
5.3 時間差分學習 111
5.3.1 一步時間差分學習 112
5.3.2 n-步時間差分學習 117
5.4 了解模擬在強化學習中的
重要性 117
5.5 總結(jié) 118
5.6 練習 119
5.7 參考文獻 119
第二部分 深度強化學習
第6章 規(guī)?;纳疃萉-學習 122
6.1 從表格型Q-學習到深度Q-
學習 122
6.1.1 神經(jīng)網(wǎng)絡(luò)擬合的Q-迭代 123
6.1.2 在線Q-學習 127
6.2 深度Q網(wǎng)絡(luò) 128
6.2.1 DQN中的關(guān)鍵概念 128
6.2.2 DQN算法 129
6.3 DQN擴展:Rainbow 130
6.3.1 擴展 130
6.3.2 集成智能體的性能 134
6.3.3 如何選擇使用哪些擴展:Rainbow的消融實驗 134
6.3.4 “死亡三組合”發(fā)生了什

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號