并行編程方法與優(yōu)化實踐

定　價：￥59.00

作　者：	劉文志　著
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥40.70)

ISBN：	9787111501947	出版時間：	2015-06-01	包裝：	平裝
開本：	16開	頁數(shù)：		字數(shù)：

內(nèi)容簡介

　　本書介紹了并行編程的方法和優(yōu)化實踐，主要結(jié)合X86SSE與AVX、ARMNeon、OpenMP、CUDA和OpenCL等講解了并行編程的技術(shù)、方法和*實踐。第1章講解X86SSE與AVX的矩陣實現(xiàn)；第2章講解如何利用ARMNeon進行編程；第3章介紹OpenMP并行程序設(shè)計；第4章講解基于GPU的CUDA和OpenCL程序設(shè)計；第5章講解OpenACC的應(yīng)用；第6～8章講解線性代數(shù)和圖形學(xué)在并行編程中的實踐與應(yīng)用，并給出大量示例。

作者簡介

暫缺《并行編程方法與優(yōu)化實踐》作者簡介

圖書目錄

前言
第1章 X86 SSE/AVX指令集
1.1 SSE內(nèi)置函數(shù)
1.1.1 算術(shù)運算
1.1.2 邏輯運算
1.1.3 比較
1.1.4 加載和存儲
1.2 AVX內(nèi)置函數(shù)
1.2.1 算術(shù)運算
1.2.2 邏輯運算
1.2.3 比較
1.2.4 加載和存儲
1.3 優(yōu)化實例及分析
1.3.1 如何測得CPU的浮點峰值性能
1.3.2 積分計算圓周率π
1.3.3 稀疏矩陣向量乘法
1.3.4 二維單通道圖像離散卷積
1.4 本章小結(jié)

第2章 ARM NEON SIMD 指令優(yōu)化
2.1 NEON指令集綜述
2.2 ARM A15 處理器性能
2.3 NEON 支持的操作
2.3.1 基本算術(shù)運算
2.3.2 基本比較運算
2.3.3 基本數(shù)據(jù)類型轉(zhuǎn)換及舍入運算
2.3.4 基本位運算
2.3.5 基本邏輯運算
2.3.6 基本設(shè)置加載存儲操作
2.3.7 特殊操作
2.4 應(yīng)用實例
2.4.1 彩色圖像轉(zhuǎn)灰度圖像
2.4.2 矩陣轉(zhuǎn)置
2.4.3 矩陣乘
2.5 本章小結(jié)

第3章 OpenMP程序設(shè)計
3.1 OpenMP編程模型
3.1.1 OpenMP執(zhí)行模型
3.1.2 OpenMP存儲器模型
3.2 環(huán)境變量
3.3 函數(shù)
3.3.1 普通函數(shù)
3.3.2 鎖函數(shù)
3.4 OpenMP編譯制導(dǎo)語句
3.4.1 常用的OpenMP構(gòu)造
3.4.2 常用的OpenMP子句
3.5 OpenMP異構(gòu)并行計算
3.6 OpenMP程序優(yōu)化
3.6.1 OpenMP程序優(yōu)化準則
3.6.2 OpenMP并行優(yōu)化實例
3.7 本章小結(jié)

第4章基于GPU的異構(gòu)并行計算環(huán)境：CUDA與OpenCL
4.1 GPU計算概述
4.1.1 GPU計算歷史
4.1.2 CUDA概述
4.1.3 OpenCL概述
4.2 異構(gòu)并行計算模型
4.2.1 平臺模型
4.2.2 執(zhí)行模型
4.2.3 存儲器模型
4.2.4 編程模型
4.3 C語言接口
4.3.1 OpenCL C語言
4.3.2 CUDA C語言
4.4 基于GPU的異構(gòu)并行計算性能優(yōu)化
4.4.1 總體優(yōu)化準則
4.4.2 全局存儲器優(yōu)化
4.4.3 合并訪問
4.4.4 局部存儲器
4.4.5 存儲體沖突
4.4.6 常量存儲器優(yōu)化
4.4.7 CUDA紋理存儲器優(yōu)化
4.4.8 寄存器及私有存儲器優(yōu)化
4.4.9 工作組數(shù)目及大小
4.4.10 占用率
4.4.11 指令優(yōu)化
4.4.12 分支優(yōu)化
4.4.13 數(shù)據(jù)傳輸優(yōu)化
4.5 GPU與CPU精度差別
4.6 矩陣轉(zhuǎn)置
4.6.1 初次實現(xiàn)
4.6.2 滿足合并訪問的實現(xiàn)
4.6.3 沒有存儲體沖突的實現(xiàn)
4.7 矩陣乘法
4.7.1 初次實現(xiàn)
4.7.2 矩陣分塊實現(xiàn)
4.8 本章小結(jié)

第5章 OpenACC
5.1OpenACC 編程模型
5.1.1 執(zhí)行模型
5.1.2存儲器模型
5.2編譯制導(dǎo)語句
5.2.1kernels構(gòu)造
5.2.2parallel構(gòu)造
5.2.3 線程配置相關(guān)子句
5.2.4data構(gòu)造
5.2.5loop構(gòu)造
5.2.6 atomic構(gòu)造
5.2.7 dtype子句
5.2.8reduction子句
5.2.9變量可見性子句
5.2.10if子句
5.2.11async和wait
5.3OpenACC和CUDA協(xié)作
5.3.1CUDA使用OpenACC生產(chǎn)的數(shù)據(jù)
5.3.2 OpenACC使用CUDA生產(chǎn)的數(shù)據(jù)
5.4兩小時性能提升10倍
5.5本章小結(jié)

第6章多核向量處理器架構(gòu)及OpenCL程序映射
6.1多核向量處理器架構(gòu)
6.1.1Intel Haswell CPU 架構(gòu)
6.1.2ARM A15 多核向量處理器架構(gòu)
6.1.3AMD GCN GPU架構(gòu)
6.1.4NVIDIA Kepler 和 Maxwell GPU架構(gòu)
6.2OpenCL 程序在多核向量處理器上的映射
6.2.1OpenCL程序在多核向量CPU上的映射
6.2.2OpenCL程序在NVIDIA GPU上的映射
6.2.3OpenCL程序在AMD GCN上的映射
6.3本章小結(jié)

第7章利用多種技術(shù)優(yōu)化圖像處理中的算法性能
7.1圖像濾波
7.1.1均值濾波
7.1.2中值濾波
7.2圖像直方圖
7.2.1OpenMP 實現(xiàn)
7.2.2CUDA 實現(xiàn)
7.3曼德勃羅集
7.3.1串行算法
7.3.2不適合進行向量化
7.3.3OpenMP實現(xiàn)
7.3.4CUDA 實現(xiàn)
7.4本章小結(jié)

第8章利用多種技術(shù)優(yōu)化線性代數(shù)中的算法性能
8.1兩向量距離
8.1.1串行代碼
8.1.2循環(huán)展開代碼
8.1.3AVX指令加速
8.1.4NEON 實現(xiàn)
8.1.5CUDA實現(xiàn)
8.2稠密矩陣與向量乘法
8.2.1串行算法
8.2.2AVX 指令加速
8.2.3NEON 實現(xiàn)
8.2.4CUDA 實現(xiàn)
8.2.5OpenMP 實現(xiàn)
8.3本章小結(jié)