乾貨|BAT等一線大廠Elasticsearch面試題解讀

NO IMAGE

題記

git上發現了網友總結的Elasticsearch BAT大廠面試題。只有題目,部分有答案,但不全。 正好抽出一些時間一起梳理一下。

既然是面試題,每個人都會有自己的結合業務場景的答案,沒有非常標準的答案。
歡迎大家留言拍磚指正。

1、elasticsearch瞭解多少,說說你們公司es的集群架構,索引數據大小,分片有多少,以及一些調優手段 。

面試官:想了解應聘者之前公司接觸的ES使用場景、規模,有沒有做過比較大規模的索引設計、規劃、調優。
解答
如實結合自己的實踐場景回答即可。
比如:ES集群架構13個節點,索引根據通道不同共20+索引,根據日期,每日遞增20+,索引:10分片,每日遞增1億+數據,
每個通道每天索引大小控制:150GB之內。

僅索引層面調優手段:

1.1、設計階段調優

  • 1)根據業務增量需求,採取基於日期模板創建索引,通過roll over API滾動索引;
  • 2)使用別名進行索引管理;
  • 3)每天凌晨定時對索引做force_merge操作,以釋放空間;
  • 4)採取冷熱分離機制,熱數據存儲到SSD,提高檢索效率;冷數據定期進行shrink操作,以縮減存儲;
  • 5)採取curator進行索引的生命週期管理;
  • 6)僅針對需要分詞的字段,合理的設置分詞器;
  • 7)Mapping階段充分結合各個字段的屬性,是否需要檢索、是否需要存儲等。 ……..

1.2、寫入調優

  • 1)寫入前副本數設置為0;
  • 2)寫入前關閉refresh_interval設置為-1,禁用刷新機制;
  • 3)寫入過程中:採取bulk批量寫入;
  • 4)寫入後恢復副本數和刷新間隔;
  • 5)儘量使用自動生成的id。

1.3、查詢調優

  • 1)禁用wildcard;
  • 2)禁用批量terms(成百上千的場景);
  • 3)充分利用倒排索引機制,能keyword類型儘量keyword;
  • 4)數據量大時候,可以先基於時間敲定索引再檢索;
  • 5)設置合理的路由機制。

1.4、其他調優

部署調優,業務調優等。

上面的提及一部分,面試者就基本對你之前的實踐或者運維經驗有所評估了。

2、elasticsearch的倒排索引是什麼?

面試官:想了解你對基礎概念的認知。
解答:通俗解釋一下就可以。

傳統的我們的檢索是通過文章,逐個遍歷找到對應關鍵詞的位置。
而倒排索引,是通過分詞策略,形成了詞和文章的映射關係表,這種詞典+映射表即為倒排索引。
有了倒排索引,就能實現o(1)時間複雜度的效率檢索文章了,極大的提高了檢索效率。

乾貨|BAT等一線大廠Elasticsearch面試題解讀

學術的解答方式:

倒排索引,相反於一篇文章包含了哪些詞,它從詞出發,記載了這個詞在哪些文檔中出現過,由兩部分組成——詞典和倒排表。

加分項:倒排索引的底層實現是基於:FST(Finite State Transducer)數據結構。
lucene從4+版本後開始大量使用的數據結構是FST。FST有兩個優點:

  • 1)空間佔用小。通過對詞典中單詞前綴和後綴的重複利用,壓縮了存儲空間;
  • 2)查詢速度快。O(len(str))的查詢時間複雜度。

3、elasticsearch 索引數據多了怎麼辦,如何調優,部署?

面試官:想了解大數據量的運維能力。
解答:索引數據的規劃,應在前期做好規劃,正所謂“設計先行,編碼在後”,這樣才能有效的避免突如其來的數據激增導致集群處理能力不足引發的線上客戶檢索或者其他業務受到影響。
如何調優,正如問題1所說,這裡細化一下:

3.1 動態索引層面

基於模板+時間+rollover api滾動創建索引,舉例:設計階段定義:blog索引的模板格式為:blog_index_時間戳的形式,每天遞增數據。

這樣做的好處:不至於數據量激增導致單個索引數據量非常大,接近於上線2的32次冪-1,索引存儲達到了TB+甚至更大。

一旦單個索引很大,存儲等各種風險也隨之而來,所以要提前考慮+及早避免。

3.2 存儲層面

冷熱數據分離存儲,熱數據(比如最近3天或者一週的數據),其餘為冷數據。
對於冷數據不會再寫入新數據,可以考慮定期force_merge加shrink壓縮操作,節省存儲空間和檢索效率。

3.3 部署層面

一旦之前沒有規劃,這裡就屬於應急策略。
結合ES自身的支持動態擴展的特點,動態新增機器的方式可以緩解集群壓力,注意:如果之前主節點等規劃合理,不需要重啟集群也能完成動態新增的。

4、elasticsearch是如何實現master選舉的?

面試官:想了解ES集群的底層原理,不再只關注業務層面了。
解答
前置前提:

  • 1)只有候選主節點(master:true)的節點才能成為主節點。
  • 2)最小主節點數(min_master_nodes)的目的是防止腦裂。

這個我看了各種網上分析的版本和源碼分析的書籍,雲裡霧裡。
核對了一下代碼,核心入口為findMaster,選擇主節點成功返回對應Master,否則返回null。選舉流程大致描述如下:

  • 第一步:確認候選主節點數達標,elasticsearch.yml設置的值discovery.zen.minimum_master_nodes;
  • 第二步:比較:先判定是否具備master資格,具備候選主節點資格的優先返回;若兩節點都為候選主節點,則id小的值會主節點。注意這裡的id為string類型。

題外話:獲取節點id的方法。

GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name
ip        port heapPercent heapMax id   name
127.0.0.1 9300          39   1.9gb Hk9w Hk9wFwU

5、詳細描述一下Elasticsearch索引文檔的過程?

面試官:想了解ES的底層原理,不再只關注業務層面了。
解答
這裡的索引文檔應該理解為文檔寫入ES,創建索引的過程。
文檔寫入包含:單文檔寫入和批量bulk寫入,這裡只解釋一下:單文檔寫入流程。

記住官方文檔中的這個圖。

乾貨|BAT等一線大廠Elasticsearch面試題解讀

第一步:客戶寫集群某節點寫入數據,發送請求。(如果沒有指定路由/協調節點,請求的節點扮演路由節點的角色。)

第二步:節點1接受到請求後,使用文檔_id來確定文檔屬於分片0。請求會被轉到另外的節點,假定節點3。因此分片0的主分片分配到節點3上。

第三步:節點3在主分片上執行寫操作,如果成功,則將請求並行轉發到節點1和節點2的副本分片上,等待結果返回。所有的副本分片都報告成功,節點3將向協調節點(節點1)報告成功,節點1向請求客戶端報告寫入成功。

如果面試官再問:第二步中的文檔獲取分片的過程?
回答:藉助路由算法獲取,路由算法就是根據路由和文檔id計算目標的分片id的過程。

shard = hash(_routing) % (num_of_primary_shards)

6、詳細描述一下Elasticsearch搜索的過程?

面試官:想了解ES搜索的底層原理,不再只關注業務層面了。
解答
搜索拆解為“query then fetch” 兩個階段。
query階段的目的:定位到位置,但不取。
步驟拆解如下:

  • 1)假設一個索引數據有5主+1副本 共10分片,一次請求會命中(主或者副本分片中)的一個。
  • 2)每個分片在本地進行查詢,結果返回到本地有序的優先隊列中。
  • 3)第2)步驟的結果發送到協調節點,協調節點產生一個全局的排序列表。

fetch階段的目的:取數據。
路由節點獲取所有文檔,返回給客戶端。

7、Elasticsearch在部署時,對Linux的設置有哪些優化方法?

面試官:想了解對ES集群的運維能力。
解答

  • 1)關閉緩存swap;
  • 2)堆內存設置為:Min(節點內存/2, 32GB);
  • 3)設置最大文件句柄數;
  • 4)線程池+隊列大小根據業務需要做調整;
  • 5)磁盤存儲raid方式——存儲有條件使用RAID10,增加單節點性能以及避免單節點存儲故障。

8、lucence內部結構是什麼?

面試官:想了解你的知識面的廣度和深度。
解答

乾貨|BAT等一線大廠Elasticsearch面試題解讀

Lucene是有索引和搜索的兩個過程,包含索引創建,索引,搜索三個要點。可以基於這個脈絡展開一些。

#小結
看到題目後,感覺熟悉又陌生。真正要在面試的時候講出來,需要下一番功夫深入理解。
為了求證回答的相對準確性,我翻看了源碼、官方文檔和部分有深度的博文。
Elasticsearch路還很長,別無他法,唯有死磕!

題目來源:
github.com/randian666/…
www.cnblogs.com/luckcs/arti…

核心參考:
1、www.cnblogs.com/LBSer/p/411…
2、blog.csdn.net/njpjsoftdev…
3、elasticsearch.cn/book/elasti…
4、www.cnblogs.com/forfuture19…
5、《Elasticsearch源碼解析和優化實踐》

乾貨|BAT等一線大廠Elasticsearch面試題解讀

銘毅天下——Elasticsearch基礎、進階、實戰第一公眾號

相關文章

嚴選|Elasticsearch史上最全最常用工具清單

Elasticsearch學習,請先看這一篇!

你的Elasticsearch在“裸奔”嗎?

讓Elasticsearch飛起來!——性能優化實踐乾貨