第1章 物聯網分析和挑戰(zhàn) 1
1.1 虛擬情境 1
1.2 物聯網分析的定義 4
1.2.1 分析的定義 4
1.2.2 物聯網的定義 6
1.2.3 受限的概念 8
1.3 物聯網數據分析的挑戰(zhàn) 8
1.3.1 大數據量 8
1.3.2 與時間相關的問題 10
1.3.3 與空間相關的問題 12
1.3.4 數據質量問題 13
1.3.5 分析方面的挑戰(zhàn) 14
1.4 和商業(yè)價值發(fā)現相關的考慮因素 15
1.5 小結 15
第2章 物聯網設備和網絡協(xié)議 17
2.1 物聯網設備 17
2.1.1 物聯網設備的繽紛世界 18
2.1.2 醫(yī)療保健 18
2.1.3 制造業(yè) 18
2.1.4 運輸和物流 19
2.1.5 零售業(yè) 19
2.1.6 石油和天然氣 19
2.1.7 家庭自動化和監(jiān)控 20
2.1.8 可穿戴設備 20
2.1.9 傳感器類型 20
2.2 有關網絡的基礎知識 21
2.3 物聯網網絡連接協(xié)議 23
2.3.1 電源受限時的連接協(xié)議 23
2.3.2 電源不受限時的連接協(xié)議 33
2.4 物聯網網絡數據消息傳遞協(xié)議 36
2.4.1 MQTT 36
2.4.2 超文本傳輸協(xié)議 44
2.4.3 CoAP 46
2.4.4 DDS 49
2.4.5 DDS的常見用例 51
2.5 分析數據以推斷協(xié)議和設備特征 52
2.6 小結 54
第3章 云和物聯網分析 55
3.1 構建彈性數據分析 56
3.1.1 關于云基礎設施 56
3.1.2 彈性分析的概念 58
3.1.3 設計時要考慮最終結果 60
3.2 可擴展設計 60
3.2.1 解耦關鍵組件 60
3.2.2 封裝分析 60
3.2.3 與消息隊列解耦 61
3.2.4 分布式計算 63
3.2.5 避免將分析局限在一臺服務器上 63
3.2.6 使用一臺服務器的恰當時機 63
3.2.7 假設變化一直發(fā)生 63
3.2.8 利用托管服務 64
3.2.9 使用應用程序編程接口 64
3.3 云安全和數據分析 66
3.3.1 公鑰/私鑰 66
3.3.2 公共子網與私有子網 66
3.3.3 訪問限制 66
3.3.4 保護客戶數據的安全 67
3.4 AWS概述 67
3.4.1 AWS關鍵概念 69
3.4.2 AWS關鍵核心服務 70
3.4.3 用于物聯網分析的AWS關鍵服務 74
3.5 Microsoft Azure概述 76
3.5.1 Azure數據湖存儲 76
3.5.2 Azure分析服務 77
3.5.3 HDInsight 78
3.5.4 R服務器選項 78
3.6 ThingWorx概述 79
3.6.1 ThingWorx Core 80
3.6.2 ThingWorx Connection Services 80
3.6.3 ThingWorx Edge 81
3.6.4 ThingWorx概念 82
3.7 小結 84
第4章 創(chuàng)建AWS云分析環(huán)境 85
4.1 AWS CloudFormation概述 85
4.2 AWS虛擬私有云設置 87
4.2.1 為NAT和Bastion實例創(chuàng)建密鑰對 88
4.2.2 創(chuàng)建S3存儲桶來存儲數據 90
4.3 為物聯網分析創(chuàng)建VPC 91
4.3.1 關于NAT網關 92
4.3.2 關于Bastion主機 92
4.3.3 關于VPC架構 93
4.3.4 VPC創(chuàng)建演練 94
4.4 如何終止和清理環(huán)境 102
4.5 小結 105
第5章 收集所有數據的策略和技術 107
5.1 數據處理 108
5.1.1 Amazon Kinesis 108
5.1.2 AWS Lambda 108
5.1.3 AWS Athena 109
5.1.4 AWS物聯網平臺 110
5.1.5 Microsoft Azure IoT Hub 111
5.2 將大數據技術應用于存儲 113
5.2.1 關于Hadoop 113
5.2.2 Hadoop集群架構 116
5.2.3 關于節(jié)點 117
5.2.4 節(jié)點類型 117
5.2.5 Hadoop分布式文件系統(tǒng) 117
5.2.6 Apache Parquet 119
5.2.7 Avro 122
5.2.8 Hive 123
5.2.9 序列化/反序列化 126
5.2.10 Hadoop MapReduce 126
5.2.11 YARN 127
5.2.12 HBase 128
5.2.13 Amazon DynamoDB 128
5.2.14 Amazon S3 129
5.3 數據處理和Apache Spark 129
5.3.1 關于Apache Spark 129
5.3.2 Apache Spark和大數據分析 130
5.3.3 單機和機器集群的比較 131
5.3.4 使用Apache Spark進行物聯網數據處理 132
5.4 數據流 134
5.4.1 流數據分析 134
5.4.2 Lambda架構 135
5.5 處理更改 136
5.6 小結 137
第6章 了解數據—探索物聯網數據 139
6.1 探索和可視化數據 140
6.1.1 Tableau概述 140
6.1.2 了解數據質量 142
6.1.3 查看數據 142
6.1.4 數據的完整性 144
6.1.5 數據的有效性 149
6.1.6 評估信息滯后情況 151
6.1.7 代表性 152
6.1.8 基本時間序列分析 152
6.1.9 關于時間序列 152
6.1.10 應用時間序列分析 152
6.1.11 了解數據中的分類 156
6.1.12 引入地理信息分析 156
6.2 尋找可能具有預測價值的特性 157
6.3 使用R語言 158
6.3.1 安裝R和RStudio 158
6.3.2 使用R進行統(tǒng)計分析 158
6.4 數據探索初步結果 162
6.5 解決特定行業(yè)的分析問題 162
6.5.1 制造業(yè) 162
6.5.2 醫(yī)療保健 163
6.5.3 零售業(yè) 164
6.6 小結 164
第7章 增強數據價值—添加內部和外部數據集 165
7.1 添加內部數據集 166
7.2 添加外部數據集 168
7.2.1 外部數據集—地理 168
7.2.2 外部數據集—人口統(tǒng)計 175
7.2.3 外部數據集—經濟 178
7.3 小結 181
第8章 與他人交流—可視化和儀表板 183
8.1 可視化設計中的常見錯誤 184
8.1.1 避免可視化錯誤的技巧 185
8.1.2 可視化錯誤示例 186
8.2 問題分層方法 187
8.2.1 問題分層方法概述 188
8.2.2 開發(fā)問題樹 189
8.2.3 將所需的數據匯總在一起 192
8.2.4 使視圖與問題流保持一致 192
8.3 物聯網數據分析的可視化設計 192
8.3.1 使用位置來傳達重要性 193
8.3.2 使用顏色突出顯示重要數據 193
8.3.3 單一顏色對傳達重要信息的影響 193
8.3.4 在視覺效果上保持一致 194
8.3.5 使圖表易于解釋 195
8.4 使用Tableau創(chuàng)建儀表板 195
8.4.1 儀表板創(chuàng)建演練 195
8.4.2 問題層次結構示例 196
8.4.3 使視圖與思維過程保持一致 197
8.4.4 創(chuàng)建單獨的視圖 198
8.4.5 將視圖組裝到儀表板中 201
8.5 創(chuàng)建和可視化警報 203
8.5.1 警報設計原則 203
8.5.2 使用Tableau儀表板組織警報 203
8.6 小結 206
第9章 對物聯網數據應用地理空間分析 209
9.1 對物聯網數據應用地理空間分析的優(yōu)點 210
9.2 地理空間分析的基礎知識 212
9.2.1 歡迎來到空島 212
9.2.2 坐標參考系統(tǒng) 213
9.2.3 地球并非完美球體 213
9.3 基于向量的方法 216
9.3.1 邊界框 217
9.3.2 包含 218
9.3.3 緩沖 219
9.3.4 膨脹和侵蝕 219
9.3.5 簡化 221
9.3.6 研究更多基于向量的方法 221
9.4 基于柵格的方法 221
9.5 存儲地理空間數據 223
9.5.1 文件格式 223
9.5.2 關系數據庫的空間數據擴展 224
9.5.3 在HDFS中存儲地理空間數據 225
9.5.4 空間數據索引 225
9.5.5 R樹 226
9.6 處理地理空間數據 227
9.6.1 地理空間分析軟件 227
9.6.2 PostGIS空間數據函數 230
9.6.3 大數據世界中的地理空間分析 231
9.7 解決污染報告問題 231
9.8 小結 232
第10章 物聯網分析和數據科學 235
10.1 機器學習 236
10.1.1 關于機器學習 236
10.1.2 表示 238
10.1.3 評估 238
10.1.4 優(yōu)化 238
10.1.5 泛化 240
10.2 使用物聯網數據進行特征工程 241
10.2.1 處理缺失值 241
10.2.2 居中和縮放 247
10.2.3 時間序列處理 248
10.3 驗證方法 249
10.3.1 交叉驗證 249
10.3.2 測試集 250
10.3.3 精確率、召回率和特異性 251
10.4 理解偏差-方差權衡 253
10.4.1 偏差 253
10.4.2 方差 254
10.4.3 權衡和復雜性 255
10.5 使用R比較不同的模型 256
10.5.1 ROC曲線 256
10.5.2 曲線下面積 260
10.6 使用R構建隨機森林模型 261
10.6.1 隨機森林關鍵概念 261
10.6.2 隨機森林R示例 262
10.7 使用R構建梯度提升機模型 264
10.7.1 GBM的關鍵概念 265
10.7.2 梯度提升機R示例 266
10.7.3 集成方法 267
10.8 使用R進行異常檢測 268
10.9 使用ARIMA進行預測 269
10.9.1 關于ARIMA 269
10.9.2 使用R預測時間序列物聯網數據 270
10.10 深度學習 271
10.10.1 使用物聯網數據進行深度學習的用例 272
10.10.2 深度學習縱覽 272
10.10.3 在AWS上設置TensorFlow 274
10.11 小結 274
第11章 組織數據的策略 275
11.1 鏈接分析數據集 276
11.1.1 分析數據集 276
11.1.2 構建分析數據集 276
11.1.3 將數據集鏈接在一起 278
11.2 管理數據湖 281
11.2.1 防止數據湖變成數據沼澤 281
11.2.2 數據提煉 281
11.2.3 數據開發(fā)過程 282
11.3 數據保留策略 283
11.3.1 目標 284
11.3.2 物聯網數據的保留策略 284
11.3.3 保留策略示例 286
11.4 小結 287
第12章 物聯網分析的經濟意義 289
12.1 云計算的經濟意義 290
12.1.1 可變成本與固定成本 290
12.1.2 退出選項 291
12.1.3 云成本可能會迅速上升 292
12.1.4 密切監(jiān)控云計費 292
12.2 開源軟件的經濟意義 292
12.2.1 知識產權考慮 292
12.2.2 可擴展性 293
12.2.3 技術支持 294
12.3 物聯網分析的成本考慮 294
12.3.1 云服務成本 294
12.3.2 考慮未來使用需求 294
12.4 考慮增加收入的機會 294
12.4.1 對當前業(yè)務的拓展 295
12.4.2 新的收入機會 295
12.5 預測性維護的經濟意義示例 297
12.5.1 預測性維護的現實情境 297
12.5.2 價值公式 297
12.5.3 價值決策示例 298
12.6 小結 305
第13章 總結和建議 307
13.1 本書關鍵主題回顧 307
13.1.1 物聯網數據流 308
13.1.2 物聯網探索性分析 309
13.1.3 物聯網數據科學 310
13.1.4 通過物聯網分析增加收入 311
13.2 示例挑戰(zhàn)項目 312
13.3 小結 313