注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件云端基因組學(xué)

云端基因組學(xué)

云端基因組學(xué)

定 價(jià):¥148.00

作 者: [美] 杰拉爾丁·A.范德奧維拉,[美] 布萊恩·D.,奧康納 著,杜春曉 譯
出版社: 中國(guó)電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787519864422 出版時(shí)間: 2022-05-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 484 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書主要內(nèi)容如下: ·基因組學(xué)和計(jì)算科學(xué)背景知識(shí)。 ·云計(jì)算操作基礎(chǔ)。 ·帶你入門GATK和三個(gè)主要GATK最佳實(shí)踐流水線。 ·用WDL語(yǔ)言編寫工作流,用Cromwell系統(tǒng)管理工作流,實(shí)現(xiàn)自動(dòng)分析。 ·用并行技術(shù)在云端大規(guī)模執(zhí)行工作流,降低成本。 ·在云端用Jupyter筆記本做交互分析。 ·用Terra平臺(tái)實(shí)現(xiàn)安全協(xié)作和計(jì)算可復(fù)現(xiàn)。

作者簡(jiǎn)介

  Geraldine A. Van der Auwera博士是麻省理工學(xué)院和哈佛大學(xué)博德研究所數(shù)據(jù)科學(xué)平臺(tái)的外聯(lián)和通信主任。 Brian D. O’Connor博士是加利福尼亞大學(xué)圣克魯茲分?;蚪M研究所計(jì)算基因組平臺(tái)主任。

圖書目錄

目錄
序 . 1
前言 . 5
第1 章 概述 13
1.1 生物學(xué)和生命科學(xué)大數(shù)據(jù)的希望和挑戰(zhàn) . 14
1.2 大數(shù)據(jù)對(duì)基礎(chǔ)設(shè)施的挑戰(zhàn) 15
1.3 數(shù)據(jù)分享和分析云生態(tài)系統(tǒng) 16
1.3.1 云托管數(shù)據(jù)和云計(jì)算 . 16
1.3.2 生命科學(xué)研究平臺(tái) 18
1.3.3 基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)化和復(fù)用 20
1.4 踐行FAIR 理念 22
1.5 小結(jié)和下一步學(xué)習(xí)內(nèi)容 23
第2 章 基因組學(xué)簡(jiǎn)介:新手必讀 25
2.1 基因組學(xué)入門 25
2.1.1 基因作為獨(dú)立遺傳單元(從某種程度上講) 26
2.1.2 生物學(xué)中心法則:從DNA 到RNA 再到蛋白質(zhì) . 29
2.1.3 DNA 突變的起因和后果 31
2.1.4 基因組學(xué)是基因組內(nèi)和基因組間變異的清單 32
2.1.5 大規(guī)模系統(tǒng)性分析基因組的難點(diǎn) 33
2.2 基因組變異 . 33
2.2.1 以參考基因組為通用框架 33
2.2.2 變異的物理分類 37
2.2.3 種系變異和體細(xì)胞變異的區(qū)別 . 42
2.3 生成高通量測(cè)序數(shù)據(jù) . 45
2.3.1 從生物樣本到大量讀段數(shù)據(jù) 45
2.3.2 DNA 文庫(kù)類型:選擇合適的實(shí)驗(yàn)設(shè)計(jì) 50
2.4 數(shù)據(jù)處理和分析 53
2.4.1 將讀段匹配到參考基因組 54
2.4.2 變異識(shí)別 56
2.4.3 數(shù)據(jù)質(zhì)量和錯(cuò)誤源 59
2.4.4 規(guī)格統(tǒng)一:功能等價(jià)流水線 63
2.5 小結(jié)和下一步學(xué)習(xí)內(nèi)容 64
第3 章 生命科學(xué)家必備計(jì)算技術(shù)入門 . 65
3.1 基礎(chǔ)設(shè)施的基本組件和性能瓶頸 65
3.1.1 幾種處理器硬件:CPU、GPU、FPGA 和TPU 66
3.1.2 計(jì)算組織的層級(jí):核、節(jié)點(diǎn)、集群和云 . 67
3.1.3 解決性能瓶頸 68
3.2 并行計(jì)算 72
3.2.1 并行處理一個(gè)簡(jiǎn)單分析任務(wù) 72
3.2.2 從核到集群和云:多層并行機(jī)制 73
3.2.3 并行需權(quán)衡速度、效率和成本 . 75
3.3 并行和自動(dòng)化流水線 . 76
3.3.1 工作流語(yǔ)言 . 77
3.3.2 常用基因組流水線語(yǔ)言 78
3.3.3 工作流管理系統(tǒng) 79
3.4 虛擬化和云 . 79
3.4.1 虛擬機(jī)和容器 80
3.4.2 云簡(jiǎn)介 83
3.4.3 采用云服務(wù)從事研究的幾個(gè)場(chǎng)景 86
3.5 小結(jié)和下一步學(xué)習(xí)內(nèi)容 88
第4 章 云上第一步 . 89
4.1 開通谷歌云賬號(hào)并創(chuàng)建首個(gè)項(xiàng)目 89
4.1.1 創(chuàng)建項(xiàng)目 90
4.1.2 核對(duì)你的結(jié)算賬號(hào)并激活免費(fèi)試用額度 . 91
4.2 用Google Cloud Shell 運(yùn)行基本命令 94
4.2.1 登錄Cloud Shell 虛擬機(jī) 94
4.2.2 用gsutil 訪問和管理文件 96
4.2.3 拉取Docker 鏡像并啟動(dòng)容器 99
4.2.4 掛載數(shù)據(jù)卷,從容器內(nèi)部訪問文件系統(tǒng) 102
4.3 創(chuàng)建自定義虛擬機(jī) 104
4.3.1 創(chuàng)建和配置你的虛擬機(jī)實(shí)例 104
4.3.2 用SSH 登錄虛擬機(jī) . 111
4.3.3 驗(yàn)證身份 112
4.3.4 復(fù)制本書材料到你的虛擬機(jī) 114
4.3.5 在虛擬機(jī)上安裝Docker 115
4.3.6 構(gòu)建GATK 容器鏡像 . 116
4.3.7 停用虛擬機(jī),停止燒錢 . 118
4.4 配置IGV 瀏覽器,讀取GCS 桶數(shù)據(jù) . 119
4.5 小結(jié)和下一步學(xué)習(xí)內(nèi)容 . 124
第5 章 GATK 入門 125
5.1 開始用GATK . 125
5.1.1 運(yùn)行要求 126
5.1.2 命令行句法 127
5.1.3 用Spark 實(shí)現(xiàn)多線程 128
5.1.4 GATK 實(shí)操 131
5.2 動(dòng)手找變異 136
5.2.1 用HaplotypeCaller 尋找種系SNP 和InDel 136
5.2.2 根據(jù)變異上下文注釋過濾變異識(shí)別結(jié)果 146
5.3 GATK 最佳實(shí)踐簡(jiǎn)介 154
5.3.1 本書涵蓋的最佳實(shí)踐 156
5.3.2 其他主要應(yīng)用場(chǎng)景 156
5.4 小結(jié)和下一步學(xué)習(xí)內(nèi)容 . 157
第6 章 用GATK 最佳實(shí)踐發(fā)現(xiàn)種系短變異 . 159
6.1 數(shù)據(jù)預(yù)處理 159
6.1.1 將讀段匹配到基因組參考 161
6.1.2 標(biāo)記重復(fù)讀段 . 163
6.1.3 重新校正堿基質(zhì)量值 165
6.2 聯(lián)合發(fā)現(xiàn)分析 . 167
6.2.1 聯(lián)合變異識(shí)別工作流概覽 167
6.2.2 識(shí)別每個(gè)樣本的變異,生成GVCF 文件 . 172
6.2.3 整合GVCF 文件 174
6.2.4 用聯(lián)合鑒定基因型方法處理多個(gè)樣本 176
6.2.5 重校正變異質(zhì)量值,過濾聯(lián)合識(shí)別結(jié)果集 . 178
6.2.6 改進(jìn)基因型分配結(jié)果并調(diào)整其可信度 183
6.2.7 下一步和延伸閱讀 184
6.3 用CNN 過濾法識(shí)別單樣本變異 185
6.3.1 CNN 單樣本工作流概覽 187
6.3.2 采用1D CNN 過濾單樣本W(wǎng)GS 變異識(shí)別結(jié)果集 188
6.3.3 采用2D CNN 在模型中加入讀段數(shù)據(jù) . 190
6.4 小結(jié)和下一步學(xué)習(xí)內(nèi)容 . 193
第7 章 用GATK 最佳實(shí)踐發(fā)現(xiàn)體細(xì)胞變異 . 195
7.1 癌癥基因組研究面對(duì)的挑戰(zhàn) 195
7.2 體細(xì)胞短變異(SNV 和InDel) 197
7.2.1 腫瘤—正常組織配對(duì)分析工作流概覽 198
7.2.2 創(chuàng)建Mutect2 PoN 隊(duì)列 . 199
7.2.3 在腫瘤—正常組織配對(duì)上運(yùn)行Mutect2 工具 . 202
7.2.4 估計(jì)樣本交叉污染 203
7.2.5 過濾Mutect2 識(shí)別結(jié)果 205
7.2.6 用Funcotator 工具注明識(shí)別結(jié)果的功能性預(yù)測(cè)效果 208
7.3 體細(xì)胞拷貝數(shù)變異 210
7.3.1 僅有腫瘤樣本的分析工作流概覽 . 211
7.3.2 創(chuàng)建體細(xì)胞CNA PoN 215
7.3.3 去噪 . 215
7.3.4 連接片段并識(shí)別CNA . 217
7.3.5 附加分析方法 . 220
7.4 小結(jié)和下一步學(xué)習(xí)內(nèi)容 . 221
第8 章 用工作流自動(dòng)執(zhí)行分析任務(wù) 223
8.1 WDL 和Cromwell 系統(tǒng)簡(jiǎn)介 223
8.2 安裝和配置Cromwell 系統(tǒng) . 226
8.3 你的第一個(gè)WDL 工作流:Hello World 230
8.3.1 編寫最小示例,學(xué)習(xí)WDL 基本句法 . 231
8.3.2 在你的谷歌虛擬機(jī)上用Cromwell 系統(tǒng)運(yùn)行簡(jiǎn)單WDL 腳本 233
8.3.3 解釋Cromwell 輸出日志的要點(diǎn) 234
8.3.4 加個(gè)變量并以JSON 格式提供輸入 . 237
8.3.5 增加另一任務(wù),完善工作流 239
8.4 你的第一個(gè)GATK 工作流:Hello HaplotypeCaller 241
8.4.1 探索WDL 工作流 242
8.4.2 生成JSON 輸入文件 246
8.4.3 運(yùn)行工作流 247
8.4.4 破壞工作流,學(xué)習(xí)句法檢查和錯(cuò)誤提示功能 . 249
8.5 介紹分散—聚集并行機(jī)制 . 253
8.5.1 探索WDL 工作流 254
8.5.2 生成圖表,實(shí)現(xiàn)可視化 . 260
8.6 小結(jié)和下一步學(xué)習(xí)內(nèi)容 . 262
第9 章 真實(shí)基因組工作流詳解 263
9.1 神秘工作流1:加入條件語(yǔ)句,提高靈活性 263
9.1.1 工作流制圖 264
9.1.2 逆向破解條件切換 269
9.2 神秘工作流2:模塊化和代碼重用 276
9.2.1 工作流制圖 276
9.2.2 拆解套娃 281
9.3 小結(jié)和下一步學(xué)習(xí)內(nèi)容 . 288
第10 章 用Pipelines API 運(yùn)行多個(gè)工作流 . 289
10.1 GCP 平臺(tái)PAPI 服務(wù)簡(jiǎn)介 289
10.2 直接發(fā)送Cromwell 作業(yè)到PAPI 292
10.2.1 配置Cromwell,實(shí)現(xiàn)與PAPI 通信 292
10.2.2 用PAPI 并行運(yùn)行 HaplotypeCaller 工具 296
10.2.3 在Google Compute Engine 監(jiān)控工作流執(zhí)行 298
10.3 理解和優(yōu)化工作流的效率 302
10.3.1 操作粒度 . 302
10.3.2 權(quán)衡時(shí)間和金錢 . 303
10.3.3 成本優(yōu)化建議 305
10.3.4 針對(duì)平臺(tái)優(yōu)化和可移植性 307
10.4 用WDL Runner 封裝Cromwell 和PAPI 的執(zhí)行 308
10.4.1 WDL Runner 設(shè)置 309
10.4.2 用WDL Runner 并行運(yùn)行HaplotypeCaller 工具 310
10.4.3 監(jiān)控WDL Runner 的執(zhí)行 . 311
10.5 小結(jié)和下一步學(xué)習(xí)內(nèi)容 314
第11 章 在Terra 平臺(tái)快捷運(yùn)行多個(gè)工作流 317
11.1 Terra 入門 317
11.1.1 生成賬號(hào) . 318
11.1.2 創(chuàng)建結(jié)算項(xiàng)目 320
11.1.3 克隆預(yù)先配好的工作區(qū) 323
11.2 在Terra 平臺(tái)用Cromwell 服務(wù)器運(yùn)行工作流 . 324
11.2.1 在單個(gè)樣本上運(yùn)行工作流 324
11.2.2 在數(shù)據(jù)表的多個(gè)樣本上運(yùn)行工作流 327
11.2.3 監(jiān)控工作流執(zhí)行 333
11.2.4 在數(shù)據(jù)表定位工作流輸出 337
11.2.5 再次運(yùn)行同一工作流,展示緩存調(diào)用 . 339
11.3 運(yùn)行一個(gè)真實(shí)、全規(guī)模GATK 最佳實(shí)踐流水線 . 341
11.3.1 尋找和克隆GATK 種系短變異發(fā)現(xiàn)最佳實(shí)踐工作區(qū) 342
11.3.2 檢查預(yù)加載數(shù)據(jù) 342
11.3.3 選數(shù)據(jù)并配置全規(guī)模工作流 . 344
11.3.4 啟動(dòng)全規(guī)模工作流并監(jiān)控其執(zhí)行 345
11.3.5 下載輸出數(shù)據(jù)的幾種方法,或不下載 . 348
11.4 小結(jié)和下一步學(xué)習(xí)內(nèi)容 349
第12 章 Jupyter Notebooks 中的交互式分析 351
12.1 Terra 平臺(tái)Jupyter 服務(wù)簡(jiǎn)介 . 352
12.1.1 Jupyter Notebooks 概述 352
12.1.2 Jupyter Notebooks 在Terra 平臺(tái)的工作原理 354
12.2 開始用Terra 平臺(tái)的Jupyter 軟件 360
12.2.1 檢查和自定義筆記本運(yùn)行環(huán)境的配置項(xiàng) 360
12.2.2 以編輯模式打開筆記本并檢查內(nèi)核 366
12.2.3 運(yùn)行Hello World 單元格 367
12.2.4 用gsutil 工具操作谷歌云存儲(chǔ)桶 370
12.2.5 聲明變量,指向本書數(shù)據(jù)桶的種系數(shù)據(jù) 371
12.2.6 設(shè)置沙盒并將輸出文件存入工作區(qū)數(shù)據(jù)桶 372
12.3 在嵌入式IGV 瀏覽器窗口查看基因組數(shù)據(jù) . 373
12.3.1 設(shè)置嵌入式IGV 瀏覽器 . 374
12.3.2 為IGV 瀏覽器添加數(shù)據(jù) . 375
12.3.3 設(shè)置訪問令牌,查看私有數(shù)據(jù) 377
12.4 運(yùn)行GATK 命令,學(xué)習(xí)、測(cè)試或解決問題 378
12.4.1 運(yùn)行GATK 基本命令:HaplotypeCaller 379
12.4.2 加載數(shù)據(jù)(BAM 和VCF)到IGV 瀏覽器 380
12.4.3 在嵌入式IGV 瀏覽器解決一個(gè)有問題的變異識(shí)別結(jié)果 . 382
12.5 可視化變異上下文注釋數(shù)據(jù) . 385
12.5.1 用VariantsToTable 導(dǎo)出感興趣的注釋值 385
12.5.2 加載R 腳本,繪制函數(shù)圖像 386
12.5.3 用makeDensityPlot 繪制QUAL 值密度圖 387
12.5.4 繪制QUAL 和DP 值散點(diǎn)圖 . 389
12.5.5 繪制附有邊緣密度的散點(diǎn)圖 . 390
12.6 小結(jié)和下一步學(xué)習(xí)內(nèi)容 392
第13 章 在Terra 平臺(tái)自己組裝工作區(qū) . 393
13.1 管理工作區(qū)內(nèi)外數(shù)據(jù) 393
13.1.1 以工作區(qū)桶為數(shù)據(jù)倉(cāng)庫(kù) 394
13.1.2 訪問你在Terra 平臺(tái)外部管理的私有數(shù)據(jù) . 394
13.1.3 訪問Terra Data Library 數(shù)據(jù) 397
13.2 用基本組件重建教程工作區(qū) . 398
13.2.1 新建工作區(qū) 398
13.2.2 添加工作流到Methods Repository 并將其導(dǎo)入工作區(qū) 400
13.2.3 用JSON 文件快速創(chuàng)建配置 . 402
13.2.4 添加數(shù)據(jù)表 403
13.2.5 填充工作區(qū)資源數(shù)據(jù)表 406
13.2.6 用數(shù)據(jù)表創(chuàng)建工作流配置 406
13.2.7 添加筆記本并檢查運(yùn)行環(huán)境 . 408
13.2.8 編寫工作區(qū)文檔并分享它 409
13.3 從GATK 最佳實(shí)踐工作區(qū)開始 410
13.3.1 克隆GATK 最佳實(shí)踐工作區(qū) 411
13.3.2 檢查GATK 工作區(qū)數(shù)據(jù)表,理解數(shù)據(jù)組織方式 411
13.3.3 了解千人基因組高覆蓋度數(shù)據(jù)集 414
13.3.4 從千人基因組工作區(qū)復(fù)制數(shù)據(jù)表 416
13.3.5 用TSV 加載文件從千人基因組工作區(qū)導(dǎo)入數(shù)據(jù) 417
13.3.6 對(duì)聯(lián)合數(shù)據(jù)集執(zhí)行聯(lián)合識(shí)別分析 419
13.4 圍繞數(shù)據(jù)集,建工作區(qū) 425
13.4.1 克隆千人基因組數(shù)據(jù)工作區(qū) . 426
13.4.2 從Dockstore 導(dǎo)入工作流 426
13.4.3 配置工作流,使用數(shù)據(jù)表 429
13.5 小結(jié)和下一步學(xué)習(xí)內(nèi)容 430
第14 章 撰寫可完全復(fù)現(xiàn)的論文 . 433
14.1 案例研究概覽 433
14.1.1 計(jì)算可復(fù)現(xiàn)和FAIR 框架 434
14.1.2 案例研究的原始研究成果和歷史 436
14.1.3 評(píng)估可用信息和關(guān)鍵挑戰(zhàn) 437
14.1.4 設(shè)計(jì)可復(fù)現(xiàn)的實(shí)現(xiàn) . 439
14.2 生成合成數(shù)據(jù)集,替代私有數(shù)據(jù) 441
14.2.1 總體方法論 442
14.2.2 從千人基因組受試檢索變異數(shù)據(jù) 444
14.2.3 根據(jù)真人數(shù)據(jù),仿造外顯子組數(shù)組 445
14.2.4 改變仿造外顯子組 . 449
14.2.5 生成最終數(shù)據(jù)集 . 452
14.3 重建數(shù)據(jù)處理和分析方法論 . 452
14.3.1 匹配和變異發(fā)現(xiàn) . 453
14.3.2 變異效果預(yù)測(cè)、排序和變異負(fù)荷分析 . 455
14.3.3 新實(shí)現(xiàn)的分析能力 . 456
14.4 通往FAIR 的道路漫長(zhǎng)又曲折 . 457
14.5 總結(jié) 459
附錄 術(shù)語(yǔ)表 . 461

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)