注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能語(yǔ)音識(shí)別:原理與應(yīng)用(全彩)

語(yǔ)音識(shí)別:原理與應(yīng)用(全彩)

語(yǔ)音識(shí)別:原理與應(yīng)用(全彩)

定 價(jià):¥128.00

作 者: 洪青陽(yáng),李琳 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121385025 出版時(shí)間: 2020-07-01 包裝: 平裝
開(kāi)本: 16 頁(yè)數(shù): 336 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)系統(tǒng)地介紹了語(yǔ)音識(shí)別的原理和應(yīng)用,全書(shū)共分 15 章,原理部分涵蓋聲學(xué)特征、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經(jīng)網(wǎng)絡(luò)(DNN)、語(yǔ)言模型和加權(quán)有限狀態(tài)轉(zhuǎn)換器(WFST),重點(diǎn)描述了 GMM-HMM、DNN-HMM 和端到端(E2E)三種語(yǔ)音識(shí)別框架。本書(shū)應(yīng)用部分包含 Kaldi、Espnet、工業(yè)應(yīng)用實(shí)踐介紹,內(nèi)容主要來(lái)自工程經(jīng)驗(yàn),極具實(shí)用性。 本書(shū)可以作為普通高等學(xué)校人工智能、計(jì)算機(jī)科學(xué)與技術(shù)、電子信息工程、自動(dòng)化等專業(yè)的本科生及研究生教材,也適合作為從事智能語(yǔ)音系統(tǒng)的科研和工程技術(shù)人員的參考用書(shū)。

作者簡(jiǎn)介

  洪青陽(yáng),廈門(mén)大學(xué)副教授,天聰智能創(chuàng)始人,主要研究方向是語(yǔ)音識(shí)別、聲紋識(shí)別,先后主持國(guó)家自然基金兩項(xiàng),科技部創(chuàng)新基金兩項(xiàng)。牽頭組建廈門(mén)大學(xué)智能語(yǔ)音實(shí)驗(yàn)室,帶領(lǐng)xmuspeech團(tuán)隊(duì)連續(xù)兩屆獲東方語(yǔ)種識(shí)別(OLR)競(jìng)賽第一名,成功研發(fā)國(guó)內(nèi)第一套閩南語(yǔ)合成系統(tǒng)。具有豐富的工業(yè)界研發(fā)經(jīng)驗(yàn),與華為、云從、掌數(shù)科技等知名企業(yè)合作,承擔(dān)過(guò)大量的智能語(yǔ)音項(xiàng)目,核心技術(shù)應(yīng)用到華為智能手機(jī)和全國(guó)十五個(gè)省市的司法/社保/證券/電力系統(tǒng)。長(zhǎng)期從事本科生、研究生的語(yǔ)音識(shí)別教學(xué)工作,從動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫模型(HMM)到E2E語(yǔ)音識(shí)別框架,與時(shí)俱進(jìn)更新教學(xué)內(nèi)容,積累了豐富的教學(xué)經(jīng)驗(yàn)。

圖書(shū)目錄

第1章 語(yǔ)音識(shí)別概論 1
1.1 語(yǔ)音的產(chǎn)生和感知 1
1.2 語(yǔ)音識(shí)別過(guò)程 4
1.3 語(yǔ)音識(shí)別發(fā)展歷史 8
1.4 國(guó)內(nèi)語(yǔ)音識(shí)別現(xiàn)狀 15
1.5 語(yǔ)音識(shí)別建模方法 19
1.5.1 DTW 19
1.5.2 GMM-HMM 20
1.5.3 DNN-HMM 20
1.5.4 端到端 22
1.6 語(yǔ)音識(shí)別開(kāi)源工具 22
1.7 語(yǔ)音識(shí)別常用數(shù)據(jù)庫(kù) 22
1.8 語(yǔ)音識(shí)別評(píng)價(jià)指標(biāo) 24
第2章 語(yǔ)音信號(hào)基礎(chǔ) 28
2.1 聲波的特性 28
2.2 聲音的接收裝置 29
2.2.1 麥克風(fēng)陣列 31
2.3 聲音的采樣 32
2.4 聲音的量化 33
2.5 語(yǔ)音的編碼 35
2.6 WAV文件格式 38
2.7 WAV文件分析 39
第3章 語(yǔ)音特征提取 44
3.1 預(yù)處理 44
3.2 短時(shí)傅立葉變換 48
3.3 聽(tīng)覺(jué)特性 51
3.4 線性預(yù)測(cè) 54
3.5 倒譜分析 55
3.6 常用的聲學(xué)特征 56
3.6.1 語(yǔ)譜圖 57
3.6.2 FBank 58
3.6.3 MFCC 59
3.6.4 PLP 61
3.6.5 CQCC 62
第4章 HMM 67
4.1 HMM的基本概念 69
4.1.1 馬爾可夫鏈 70
4.1.2 雙重隨機(jī)過(guò)程 71
4.1.3 HMM的定義 72
4.2 HMM的三個(gè)基本問(wèn)題 73
4.2.1 模型評(píng)估問(wèn)題 74
4.2.2 最佳路徑問(wèn)題 77
4.2.3 模型訓(xùn)練問(wèn)題 79
第5章 GMM-HMM 83
5.1 概率統(tǒng)計(jì) 84
5.2 高斯分布 85
5.3 GMM 88
5.3.1 初始化 89
5.3.2 重估計(jì) 90
5.4 GMM-HMM 91
5.5 GMM-HMM的訓(xùn)練 97
5.6 模型自適應(yīng) 99
5.6.1 MAP 99
5.6.2 MLLR 100
5.6.3 fMLLR 100
5.6.4 SAT 101
課程實(shí)踐:基于HTK搭建GMM-HMM系統(tǒng) 103
第6章 基于HMM的語(yǔ)音識(shí)別 104
6.1 建模單元 104
6.2 發(fā)音過(guò)程與HMM狀態(tài) 107
6.3 串接HMM 108
6.4 固定語(yǔ)法的識(shí)別 112
6.5 隨機(jī)語(yǔ)法的識(shí)別 117
第7章 音素的上下文建模 125
7.1 協(xié)同發(fā)音 125
7.2 上下文建模 126
7.3 決策樹(shù) 128
7.4 問(wèn)題集 129
7.4.1 手工設(shè)計(jì) 129
7.4.2 自動(dòng)生成 131
7.5 三音子模型的訓(xùn)練 134
第8章 語(yǔ)言模型 136
8.1 n-gram模型 138
8.2 評(píng)價(jià)指標(biāo)——困惑度 142
8.3 平滑技術(shù) 143
8.3.1 Good-Turing折扣法 143
8.3.2 Jelinek-Mercer插值法 144
8.3.3 Kneser-Ney插值法 144
8.3.4 Katz回退法 146
8.4 語(yǔ)言模型的訓(xùn)練 148
8.5 遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 151
第9章 WFST解碼器 158
9.1 基于動(dòng)態(tài)網(wǎng)絡(luò)的Viterbi解碼 159
9.2 WFST理論 163
9.3 HCLG構(gòu)建 168
9.3.1 H的構(gòu)建 169
9.3.2 C的構(gòu)建 171
9.3.3 L的構(gòu)建 172
9.3.4 G的構(gòu)建 173
9.3.5 HCLG合并 175
9.4 WFST的Viterbi解碼 177
9.4.1 Token的定義 177
9.4.2 Viterbi算法 178
9.5 Lattice解碼 185
9.5.1 主要數(shù)據(jù)結(jié)構(gòu) 185
9.5.2 令牌傳播過(guò)程 186
9.5.3 剪枝策略 189
9.5.4 Lattice 190
第10章 DNN-HMM 194
10.1 深度學(xué)習(xí) 194
10.2 DNN 195
10.2.1 激活函數(shù) 196
10.2.2 損失函數(shù) 198
10.2.3 梯度下降算法 199
10.3 DNN與HMM的結(jié)合 201
10.4 不同的DNN結(jié)構(gòu) 205
10.4.1 CNN 205
10.4.2 LSTM 210
10.4.3 GRU 210
10.4.4 TDNN 211
10.4.5 TDNN-F 214
第11章 序列區(qū)分性訓(xùn)練 220
11.1 區(qū)分性準(zhǔn)則 221
11.1.1 MMI 221
11.1.2 BMMI 222
11.1.3 MPE/sMBR 222
11.2 MMI求導(dǎo)過(guò)程 223
11.3 Lattice-based MMI 225
11.4 Lattice-free MMI 227
11.5 Kaldi Chain模型 230
第12章 端到端語(yǔ)音識(shí)別 233
12.1 CTC 234
12.1.1 損失函數(shù) 235
12.1.2 前向算法 239
12.1.3 后向算法 242
12.1.4 求導(dǎo)過(guò)程 243
12.1.5 CTC解碼 245
12.2 RNN-T 248
12.3 Attention模型 251
12.4 Hybrid CTC/Attention 254
12.5 Transformer 256
第13章 Kaldi實(shí)踐 262
13.1 下載與安裝Kaldi 263
13.1.1 獲取源代碼 263
13.1.2 編譯 264
13.2 創(chuàng)建與配置基本的工程目錄 265
13.3 aishell語(yǔ)音識(shí)別工程 266
13.3.1 數(shù)據(jù)映射目錄準(zhǔn)備 267
13.3.2 詞典準(zhǔn)備和lang目錄生成 269
13.3.3 語(yǔ)言模型訓(xùn)練 271
13.3.4 聲學(xué)特征提取與倒譜均值歸一化 273
13.3.5 聲學(xué)模型訓(xùn)練與強(qiáng)制對(duì)齊 274
13.3.6 解碼測(cè)試與指標(biāo)計(jì)算 277
第14章 Espnet實(shí)踐 280
14.1 數(shù)據(jù)準(zhǔn)備 280
14.1.1 映射文件準(zhǔn)備 280
14.1.2 特征提取 281
14.1.3 數(shù)據(jù)增強(qiáng) 282
14.1.4 詞典生成 282
14.1.5 數(shù)據(jù)打包 283
14.2 Espnet配置文件 284
14.3 語(yǔ)言模型訓(xùn)練 285
14.4 聲學(xué)模型訓(xùn)練 287
14.4.1 聲學(xué)模型訓(xùn)練腳本 287
14.4.2 CTC聲學(xué)模型訓(xùn)練 288
14.4.3 Attention聲學(xué)模型訓(xùn)練 289
14.4.4 RNN-T模型訓(xùn)練 290
14.4.5 Transformer模型訓(xùn)練 292
14.5 語(yǔ)音識(shí)別解碼 293
14.6 Espnet訓(xùn)練解碼可視化 294
14.6.1 Espnet訓(xùn)練參數(shù)可視化 294
14.6.2 Espnet中的Attention可視化 295
14.6.3 Espnet解碼結(jié)果可視化 296
第15章 工業(yè)應(yīng)用實(shí)踐 298
15.1 動(dòng)態(tài)庫(kù)封裝 298
15.1.1 函數(shù)接口 298
15.1.2 動(dòng)態(tài)庫(kù)編譯 306
15.1.3 動(dòng)態(tài)庫(kù)調(diào)用 309
15.2 語(yǔ)音云平臺(tái) 310
15.3 識(shí)別引擎優(yōu)化 315
15.3.1 加快響應(yīng)速度 315
15.3.2 定制語(yǔ)言模型 316
15.3.3 定制聲學(xué)模型 316
15.4 嵌入式移植 318

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)