注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫理論大數(shù)據(jù)工程師面試筆試寶典

大數(shù)據(jù)工程師面試筆試寶典

大數(shù)據(jù)工程師面試筆試寶典

定 價:¥89.00

作 者: 楊俊 姜偉 許朋舉
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111753872 出版時間: 2024-07-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《大數(shù)據(jù)工程師面試筆試寶典》全面講解了大數(shù)據(jù)的核心技術(shù)及如何解答大數(shù)據(jù)工程師面試筆試中的常見問題,還引入了相關(guān)知識點輔以說明,讓讀者對所學知識進行查漏補缺,幫助讀者順利通過大數(shù)據(jù)工程師面試筆試。《大數(shù)據(jù)工程師面試筆試寶典》的題目均來自一線互聯(lián)網(wǎng)公司面試筆試真題,涵蓋大數(shù)據(jù)基礎、大數(shù)據(jù)生態(tài)圈技術(shù)組件以及大數(shù)據(jù)不同崗位的面試筆試題。第1~2章主要介紹了職業(yè)道路如何選擇、面試筆試前如何準備、面試筆試過程中如何應對,以及面試經(jīng)常遇到的“坑”。第3章介紹了大數(shù)據(jù)基礎面試筆試題,讓讀者學會利用大數(shù)據(jù)思維解決常見應用場景;第4~10章重點介紹了大數(shù)據(jù)生態(tài)圈核心技術(shù)的面試筆試題,讓讀者加強對大數(shù)據(jù)技術(shù)組件的理解;第11~13章介紹了大數(shù)據(jù)倉庫、大數(shù)據(jù)項目、大數(shù)據(jù)運維方向的常見面試筆試題;第14章探討了大數(shù)據(jù)與人工智能的交叉點,讓讀者可以輕松應對大數(shù)據(jù)工程師的面試筆試。《大數(shù)據(jù)工程師面試筆試寶典》內(nèi)容的深度和廣度貼近實際,將幫助大數(shù)據(jù)領(lǐng)域的求職者為面試筆試做好充分的準備,提高面試成功率,同時,《大數(shù)據(jù)工程師面試筆試寶典》也可作為從業(yè)者的實用工具書,以加深對大數(shù)據(jù)技術(shù)和實踐的理解。無論是初學者還是有經(jīng)驗的專業(yè)人士,都將從本書提供的詳實信息和實用建議中受益。

作者簡介

  楊俊,資深大數(shù)據(jù)架構(gòu)師和技術(shù)專家,擁有十余年的大數(shù)據(jù)開發(fā)經(jīng)驗。精通Hadoop、Spark、Flink等主流大數(shù)據(jù)生態(tài)技術(shù),尤其擅長Hadoop源碼級技術(shù)。參與并主導了十余個重量級大數(shù)據(jù)項目,曾在廣電數(shù)據(jù)咨詢公司擔任大數(shù)據(jù)架構(gòu)師,負責大數(shù)據(jù)平臺的架構(gòu)設計與實施,并構(gòu)建了企業(yè)級數(shù)據(jù)倉庫。暢銷書《實戰(zhàn)大數(shù)據(jù)(Hadoop Spark Flink)》和《Hadoop大數(shù)據(jù)技術(shù)基礎與應用》的作者。51CTO知名培訓講師,擁有30余萬粉絲,具有豐富的大數(shù)據(jù)技術(shù)培訓經(jīng)驗。為數(shù)十家高校和企業(yè)提供過大數(shù)據(jù)技術(shù)課程培訓,包括首都經(jīng)濟貿(mào)易大學、河北大學、北京交通大學等高校,以及中國移動、新華三(H3C)等知名企業(yè)。

圖書目錄

前言
第1章 面試筆試心得交流
1.1 擺正求職心態(tài)/1
1.2 求職前準備/2
1.3 做好自我介紹/4
1.4 職業(yè)規(guī)劃是什么/5
1.5 為什么離開上一家公司/6
1.6 被面試官否定怎么辦/6
1.7 加分項一定要呈現(xiàn)出來/7
1.8 面試禁忌/8
1.9 面試會有哪些“坑”/8
1.10 如何應對自己不會回答的問題/9
1.11 如何應對某一次面試失?。?0
1.12 面試成功是否就高枕無憂/11
第2章 大數(shù)據(jù)工程師面試筆試攻略
2.1 大數(shù)據(jù)職業(yè)的崗位劃分/12
2.2 典型大數(shù)據(jù)工程師的職業(yè)發(fā)展路徑/13
2.3 公司大數(shù)據(jù)部門劃分與人員編制/15
2.4 大數(shù)據(jù)工程師的工作職責/16
2.5 大數(shù)據(jù)工程師簡歷如何編寫/17
2.6 缺少大數(shù)據(jù)項目經(jīng)驗如何應對/18
2.7 大數(shù)據(jù)面試筆試需要掌握哪些技能/19
2.8 如何把握大數(shù)據(jù)工程師的面試筆試重點/24
2.9 引導面試官提問自己擅長的技術(shù)/25
第3章 大數(shù)據(jù)基礎應用
3.1 大數(shù)據(jù)基礎知識/27
3.1.1 大數(shù)據(jù)生態(tài)體系/27
3.1.2 大數(shù)據(jù)基石—云計算/29
3.1.3 大數(shù)據(jù)核心—海量數(shù)據(jù)/30
3.1.4 大數(shù)據(jù)靈魂—大數(shù)據(jù)技術(shù)/31
3.1.5 大數(shù)據(jù)價值—商業(yè)應用/32
3.2 大數(shù)據(jù)算法/32
3.2.1 如何從海量數(shù)據(jù)中找出最高頻詞/32
3.2.2 如何找出訪問百度次數(shù)最多的IP地址/34
3.2.3 如何從2.5億個整數(shù)中找出不重復的整數(shù)/36
3.2.4 判斷一個數(shù)在40億數(shù)據(jù)中是否存在/38
3.2.5 如何找出CSDN網(wǎng)站最熱門的搜索關(guān)鍵詞/39
3.2.6 如何從大量數(shù)據(jù)中統(tǒng)計不同手機號的個數(shù)/41
3.2.7 如何從大量數(shù)據(jù)中找出重復次數(shù)最多的一條數(shù)據(jù)/42
3.2.8 如何對大量數(shù)據(jù)按照query的頻度排序/43
3.2.9 如何從大量的URL中找出相同的URL/44
3.2.10 如何從5億個數(shù)中找出中位數(shù)/46
第4章 ZooKeeper分布式協(xié)調(diào)服務
4.1 簡述ZooKeeper包含哪些重要特性/48
4.2 簡述ZooKeeper包含哪些應用場景/49
4.3 簡述ZooKeeper包含哪幾種Znode節(jié)點類型/51
4.4 請問ZooKeeper對Znode的監(jiān)聽是永久的嗎/52
4.5 請問ZooKeeper集群包含多少節(jié)點合適/52
4.6 簡述ZooKeeper集群節(jié)點包含哪些角色/53
4.7 簡述ZooKeeper集群節(jié)點有哪幾種工作狀態(tài)/54
4.8 請問ZooKeeper節(jié)點宕機后內(nèi)部如何處理/54
4.9 請問ZooKeeper集群是否支持動態(tài)添加機器/55
4.10 簡述ZooKeeper集群的數(shù)據(jù)讀寫流程/56
4.11 簡述ZooKeeper的監(jiān)聽器原理/57
4.12 談談你對CAP原則的理解/58
4.13 談談ZAB協(xié)議在ZooKeeper中的作用/59
4.14 談談你對ZooKeeper選舉機制的理解/60
4.15 闡述ZooKeeper如何保證事務的順序一致性/62
4.16 闡述如何遷移ZooKeeper集群/62
第5章 Hadoop大數(shù)據(jù)平臺
5.1 Hadoop分布式文件系統(tǒng)(HDFS)/64
5.1.1 闡述HDFS中的數(shù)據(jù)塊大小設置/64
5.1.2 簡述HDFS的副本存放策略/65
5.1.3 闡述如何處理HDFS大量小文件問題/65
5.1.4 簡述NameNode元數(shù)據(jù)存儲在什么位置/67
5.1.5 闡述如何解決edits文件過大的問題/67
5.1.6 簡述HDFS讀數(shù)據(jù)流程/68
5.1.7 簡述HDFS寫數(shù)據(jù)流程/69
5.1.8 簡述NameNode HA的運行機制/71
5.1.9 簡述HDFS聯(lián)邦機制/71
5.1.10 闡述如何處理NameNode宕機問題/72
5.1.11 闡述如何處理DataNode宕機問題/73
5.1.12 簡述HDFS支持哪些存儲格式與壓縮算法/73
5.2 Hadoop資源管理系統(tǒng)(YARN)/75
5.2.1 簡述YARN應用的運行機制/75
5.2.2 闡述YARN與MapReduce1的異同/76
5.2.3 簡述YARN 高可用原理/77
5.2.4 簡述YARN的容錯機制/78
5.2.5 簡述YARN調(diào)度器的工作原理/79
5.2.6 闡述YARN的任務提交流程/81
5.3 Hadoop分布式計算框架(MapReduce)/82
5.3.1 簡述MapReduce作業(yè)運行機制/82
5.3.2 簡述MapReduce Shuffle過程/85
5.3.3 簡述MapReduce作業(yè)失敗與容錯機制/87
5.3.4 闡述如何解決MapReduce數(shù)據(jù)傾斜問題/89
5.3.5 簡述MapReduce二次排序原理/90
5.3.6 簡述MapReduce Join實現(xiàn)原理/91
第6章 Hive數(shù)據(jù)倉庫工具
6.1 簡述Hive與傳統(tǒng)數(shù)據(jù)庫的異同/93
6.2 簡述Hive與HBase的異同/94
6.3 簡述Hive包含哪些建表方式/94
6.4 簡述Hive內(nèi)部表與外部表的區(qū)別/95
6.5 簡述Hive分區(qū)表與分桶表的區(qū)別/96
6.6 簡述Hive包含哪些表連接方式/97
6.7 簡述collect_list()與collect_set()函數(shù)的區(qū)別/98
6.8 簡述ORDER BY、DISTRIBUTE BY、SORT BY和
CLUSTER BY的區(qū)別與聯(lián)系/99
6.9 談談如何預防Hive查詢?nèi)頀呙瑁?00
6.10 簡述Hive包含哪些自定義函數(shù)/101
6.11 闡述如何解決Hive數(shù)據(jù)傾斜問題/101
6.12 闡述Hive有哪些性能調(diào)優(yōu)手段/104
第7章 HBase分布式數(shù)據(jù)庫
7.1 簡述HBase的應用場景/106
7.2 簡述HBase讀數(shù)據(jù)流程/107
7.3 簡述HBase寫數(shù)據(jù)流程/108
7.4 闡述HBase Region如何定位/109
7.5 簡述HBase Region的合并與分裂過程/110
7.6 闡述HBase如何設計RowKey/112
7.7 闡述HBase如何實現(xiàn)預分區(qū)/112
7.8 談談你對HBase二級索引的理解/113
7.9 闡述HBase如何降低磁盤IO/114
7.10 闡述HBase如何處理冷熱數(shù)據(jù)/117
7.11 簡述HBase有哪些性能調(diào)優(yōu)手段/117
第8章 Kafka分布式消息隊列
8.1 簡述ZooKeeper在Kafka中的作用/120
8.2 簡述Kafka文件存儲設計特點/121
8.3 簡述Kafka的使用場景/121
8.4 簡述Kafka寫數(shù)據(jù)流程/122
8.5 闡述Kafka為什么不支持讀寫分離/122
8.6 簡述Kafka哪些地方涉及選舉/123
8.7 簡述Kafka Topic分區(qū)的分配規(guī)則/123
8.8 談談你對Kafka消費者負載均衡策略的理解/124
8.9 談談你對Kafka再均衡的理解/124
8.10 簡述Kafka生產(chǎn)者ACK機制/125
8.11 闡述Kafka如何實現(xiàn)數(shù)據(jù)同步/125
8.12 闡述如何提高Kafka吞吐量/126
8.13 闡述如何優(yōu)化Kafka生產(chǎn)者數(shù)據(jù)寫入速度/127
8.14 闡述Kafka如何實現(xiàn)高效讀取數(shù)據(jù)/127
8.15 闡述Kafka如何保證高吞吐量/128
8.16 闡述Kafka如何保證數(shù)據(jù)可靠性/128
8.17 闡述Kafka如何保證數(shù)據(jù)不丟失/129
8.18 闡述Kafka如何保證消息冪等性/130
8.19 闡述Kafka如何保證消息被順序消費/130
8.20 闡述Kafka消費者數(shù)量較大對性能有何影響/131
第9章 Spark內(nèi)存計算框架
9.1 談談Hadoop和Spark的區(qū)別與聯(lián)系/132
9.2 簡述Spark與MapReduce的Shuffle區(qū)別/133
9.3 闡述Spark解決了Hadoop哪些問題/136
9.4 簡述Spark應用程序的生命周期/137
9.5 談談你對RDD機制的理解/140
9.6 簡述RDD包含哪些缺陷/140
9.7 闡述Spark如何劃分DAG的Stage/141
9.8 請問Spark中的數(shù)據(jù)位置由誰來管理/142
9.9 談談reduceByKey與groupByKey的區(qū)別與聯(lián)系/143
9.10 談談Cache和Persist的區(qū)別與聯(lián)系/143
9.11 闡述如何解決Spark中的數(shù)據(jù)傾斜問題/144
9.12 闡述如何解決Spark中的OOM問題/145
9.13 闡述Spark Streaming如何保證Exactly-Once語義/146
9.14 闡述Spark Streaming如何性能調(diào)優(yōu)/148
9.15 談談你對Spark Streaming背壓機制的理解/150
第10章 Flink流式計算框架
10.1 談談Spark與Flink的區(qū)別與聯(lián)系/151
10.2 簡述Flink有哪些方式設置并行度/156
10.3 闡述如何合理評估Flink任務的并行度/157
10.4 談談你對Flink Operator Chain的理解/157
10.5 談談你對Flink重啟策略的理解/158
10.6 闡述Flink內(nèi)存管理是如何實現(xiàn)的/160
10.7 闡述Flink Task如何實現(xiàn)數(shù)據(jù)交換/161
10.8 闡述Flink狀態(tài)如何實現(xiàn)容錯/162
10.9 簡述Flink分布式快照原理/164
10.10 闡述Flink如何保證端到端Exactly-Once語義/166
10.11 闡述如何解決Flink任務延遲高的問題/169
10.12 闡述如何處理Flink反壓問題/170
10.13 闡述Flink海量數(shù)據(jù)如何實現(xiàn)去重/171
10.14 闡述Flink如何處理遲到的數(shù)據(jù)/172
10.15 闡述如何解決Flink數(shù)據(jù)傾斜/173
10.16 闡述如何解決Flink Window中的數(shù)據(jù)傾斜/174
第11章 大數(shù)據(jù)倉庫
11.1 談談你如何理解數(shù)據(jù)庫三范式/175
11.2 闡述為什么需要數(shù)倉建模/177
11.3 簡述事實表分為哪幾類/178
11.4 簡述維度建模包含哪些常用的模型/178
11.5 簡述維度建模實現(xiàn)過程/180
11.6 談談你對元數(shù)據(jù)的理解/180
11.7 談談數(shù)倉架構(gòu)如何分層/181
11.8 談談你對離線數(shù)倉架構(gòu)的理解/183
11.9 談談你對Lambda架構(gòu)的理解/184
11.10 談談你對Kappa架構(gòu)的理解/185
11.11 闡述字段頻繁變更的數(shù)倉架構(gòu)如何設計/186
11.12 闡述如何實現(xiàn)拉鏈表/187
11.13 闡述如何查詢連續(xù)7日登錄的用戶/188
11.14 闡述如何統(tǒng)計注冊用戶的留存數(shù)與留存率/190
第12章 大數(shù)據(jù)項目
12.1 談談大數(shù)據(jù)項目組如何分工與協(xié)作/193
12.2 談談你在項目中扮演什么角色/194
12.3 簡述你所在或曾任職公司的大數(shù)據(jù)集群規(guī)模/194
12.4 簡述你所在或曾任職公司的項目數(shù)據(jù)類型及規(guī)模/196
12.5 簡述你所在或曾任職公司的項目產(chǎn)生的表及數(shù)據(jù)量/196
12.6 簡述你所在或曾任職公司的大數(shù)據(jù)項目業(yè)務需求/197
12.7 簡述項目整體架構(gòu)及技術(shù)選型/198
12.8 簡述大數(shù)據(jù)項目遇到過的難點及解決方案/199
12.9 簡述大數(shù)據(jù)項目遇到的瓶頸及優(yōu)化方法/202
12.10 簡述大數(shù)據(jù)項目開發(fā)周期及安排/204
第13章 大數(shù)據(jù)運維
13.1 請問ZooKeeper節(jié)點宕機如何處理/206
13.2 闡述多次修改HDFS副本數(shù)如何計算數(shù)據(jù)總量/207
13.3 闡述如何估算HDFS需要的內(nèi)存大?。?07
13.4 請問DataNode節(jié)點宕機如何恢復/208
13.5 請問NameNode節(jié)點宕機如何恢復/208
13.6 闡述晚高峰期DataNode節(jié)點不穩(wěn)定如何處理/209
13.7 闡述如何調(diào)優(yōu)才能加快NameNode啟動速度/210
13.8 請問Hadoop出現(xiàn)文件塊丟失如何處理/211
13.9 請問文件寫入HDFS是先全部寫入再備份嗎/211
13.10 請問如何查看HDFS目錄下的文件數(shù)及位置/212
13.11 闡述集群硬盤損壞后的詳細處理流程/213
13.12 闡述集群擴容后如何處理數(shù)據(jù)不均衡的現(xiàn)象/214
13.13 闡述運維人員如何避免開發(fā)人員誤刪數(shù)據(jù)/214
13.14 闡述大數(shù)據(jù)集群如何自動化擴容/215
13.15 闡述如何對大數(shù)據(jù)集群進行有效監(jiān)控/216
13.16 闡述如何保證海量數(shù)據(jù)寫入HBase的及時性/216
13.17 簡述哪些情況會導致HBase Master發(fā)生故障/217
13.18 簡述哪些情況會導致HBase RegionServer發(fā)生故障/218
13.19 闡述Kafka如何選擇適當?shù)姆謪^(qū)數(shù)量/219
13.20 簡述Kafka分區(qū)是否可以增加或減少/220
第14章 大數(shù)據(jù) 人工智能
14.1 如何解釋大數(shù)據(jù)與人工智能之間的關(guān)系/221
14.2 闡述數(shù)據(jù)采集的作用以及數(shù)據(jù)質(zhì)量對人工智能模型性能的
影響/222
14.3 當前流行的大型語言模型如何利用大數(shù)據(jù)進行訓練/223
14.4 AIGC、Sora等項目是如何將大數(shù)據(jù)與人工智能
相結(jié)合的/224
14.5 請解釋什么是數(shù)據(jù)驅(qū)動的人工智能/225
14.6 介紹一下常用的人工智能開發(fā)工具和平臺/225
14.7 闡述AI中的基本概念及其區(qū)別與聯(lián)系/226
14.8 數(shù)據(jù)預處理在人工智能中的作用是什么/227
14.9 如何評估人工智能模型的性能/229
14.10 闡述過擬合和欠擬合現(xiàn)象在機器學習中的含義及如何
解決/230
14.11 闡述在大數(shù)據(jù)環(huán)境中人工智能項目的倫理和
隱私問題/231
14.12 闡述數(shù)據(jù)可視化的作用并介紹一些常用的
工具和技術(shù)/232
14.13 闡述什么是監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習/233
14.14 談談數(shù)據(jù)安全的挑戰(zhàn)和解決方案/234
14.15 如何有效地管理和處理大規(guī)模的數(shù)據(jù)集/235
14.16 闡述深度學習的應用及其在大數(shù)據(jù)環(huán)境中的挑戰(zhàn)和解決
方案/236
14.17 闡述強化學習的基本原理及其應用場景和優(yōu)劣勢/237
14.18 如何利用大數(shù)據(jù)和人工智能技術(shù)來優(yōu)化企業(yè)的運營和
決策/238

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號