一文看懂 K8s 日誌系統設計和實踐

作者 | 元乙阿里雲存儲服務技術專家

導讀：上一篇文章中我們介紹了為什麼需要一個日誌系統、為什麼雲原生下的日誌系統如此重要以及雲原生背景下日誌系統的建設難點，相信 DevOps、SRE、運維等同學看了之後深有體會。本篇文章單刀直入，會直接跟大家分享一下如何在雲原生的場景下搭建一個靈活、功能強大、可靠、可擴容的日誌系統。

需求驅動架構設計

技術架構，是將產品需求轉變為技術實現的過程。對於所有的架構師而言，能夠將產品需求分析透徹是非常基本也是非常重要的一點。很多系統剛建成沒多久就要被推翻，最根本的原因還是沒有解決好產品真正的需求。

我所在的日誌服務團隊在日誌這塊有近10年的經驗，幾乎服務阿里內部所有的團隊，涉及電商、支付、物流、雲計算、遊戲、即時通訊、IoT等領域，多年來的產品功能的優化和迭代都是基於各個團隊的日誌需求變化。

有幸我們最近幾年在阿里雲上實現了產品化，服務了數以萬計的企業用戶，包括國內各大直播類、短視頻、新聞媒體、遊戲等行業Top1互聯網客戶。產品功能從服務一個公司到服務上萬家公司會有質的差別，上雲促使我們更加深入的去思考：究竟哪些功能是日誌這個平台需要去為用戶去解決的，日誌最核心的訴求是什麼，如何去滿足各行各業、各種不同業務角色的需求...

需求分解與功能設計

上一節中我們分析了公司內各個不同角色對於日誌的相關需求，總結起來有以下幾點：

支持各種日誌格式、數據源的採集，包括非K8s

能夠快速的查找/定位問題日誌

能夠將各種格式的半結構化/非結構化日誌格式化，並支持快速的統計分析、可視化

支持通過日誌進行實時計算並獲得一些業務指標，並支持基於業務指標實時的告警（其實本質就是APM）

支持對於超大規模的日誌進行各種維度的關聯分析，可接受一定時間的延遲

能夠便捷的對接各種外部系統或支持自定義的獲取數據，例如對接第三方審計系統

能夠基於日誌以及相關的時序信息，實現智能的告警、預測、根因分析等，並能夠支持自定義的離線訓練方式以獲得更好的效果

為滿足上述這些功能需求，日誌平台上必須具備的功能功能模塊有：

全方位日誌採集，支持DaemonSet、Sidecar各種採集方式以應對不同的採集需求，同時支持Web、移動端、IoT、物理機/虛擬機各種數據源的採集；

日誌實時通道，這個是為了對接上下游所必備的功能，保證日誌能夠被多種系統所便捷的使用；

數據清洗（ETL: Extract，Transform，Load），對各種格式的日誌進行清洗，支持過濾、富化、轉換、補漏、分裂、聚合等；

日誌展現與搜索，這是所有日誌平台必須具備的功能，能夠根據關鍵詞快速的定位到日誌並查看日誌上下文，看似簡單的功能卻最難做好；

實時分析，搜索只能完成一些定位到問題，而分析統計功能可以幫助快速分析問題的根因，同時可以用於快速的計算一些業務指標；

流計算，通常我們都會使用流計算框架（Flink、Storm、Spark Stream等）來計算一些實時的指標或對數據進行一些自定義的清洗等；

離線分析，運營、安全相關的需求都需要對大量的歷史日誌進行各種維度的關聯計算，目前只有T+1的離線分析引擎能夠完成；

機器學習框架，能夠便捷、快速的將歷史的日誌對接到機器學習框架進行離線訓練，並將訓練后的結果加載到線上實時的算法庫中。

開源方案設計

藉助於強大的開源社區，我們可以很容易基於開源軟件的組合來實現這樣一套日誌平台，上圖是一個非常典型的以ELK為核心的日誌平台方案：

利用FileBeats、Fluentd等採集Agent實現容器上的數據統一收集。

為了提供更加豐富的上下游以及緩衝能力，可以使用kafka作為數據採集的接收端。

採集到的原始數據還需要進一步的清洗，可以使用Logstash或者Flink訂閱Kafka中的數據，清洗完畢后再寫入kafka中。

清洗后的數據可以對接ElasticSearch來做實時的查詢檢索、對接Flink來計算實時的指標和告警、對接Hadoop來做離線的數據分析、對接TensorFlow來做離線模型訓練。

數據的可視化可以使用grafana、kibana等常用的可視化組件。

為什麼我們選擇自研

採用開源軟件的組合是非常高效的方案，得益於強大的開源社區以及龐大用戶群體的經驗積累，我們可以很快搭建出這樣一套系統，並且可以滿足我們絕大部分的需求。

當我們把這套系統部署好，能夠把日誌從容器上採集上來、elasticsearch上能夠查到、Hadoop上能夠成功執行SQL、Grafana上能看到圖、告警短信能收到......完成上述流程打通后，加加班可能只需要花費幾天的時間，當系統終於跑通的時候，這時候終於可以長舒一口氣，躺在辦公椅上放鬆放鬆。

然而理想很豐滿現實很骨感，當我們預發通了，測試完了上到生產，開始接入第一個應用，逐漸更多的應用接入，越來越多的人開始使用......這時候很多問題都可能暴露出來：

隨着業務量的上漲，日誌量也越來越大，Kakfa和ES要不斷擴容，同時同步Kafka到ES的Connector也需要擴容，最煩的是採集Agent，每台機器上部署的DaemonSet Fluentd根本沒辦法擴容，到了單Agent瓶頸就沒辦法了，只能換Sidecar，換Sidecar工作量大不說，還會帶來一系列其他的問題，比如怎麼和CICD系統集成、資源消耗、配置規劃、stdout採集不支持等等。

從剛開始上的邊緣業務，慢慢更多的核心業務接入，對於日誌的可靠性要求越來越高，經常有研發反應從ES上查不到數據、運營說統計出來的報表不準、安全說拿到的數據不是實時的......每次問題的排查都要經過採集、隊列、清洗、傳輸等等非常多的路徑，排查代價非常高。同時還要為日誌系統搭建一套監控方案，能夠即時發現問題，而且這套方案還不能基於日誌系統，不能自依賴。

當越來越多的開發開始用日誌平台調查問題時，經常會出現因為某1-2個人提交一個大的查詢，導致系統整體負載上升，其他人的查詢都會被Block，甚至出現Full GC等情況。這時候一些大能力的公司會對ES進行改造，來支持多租戶隔離；或者為不同的業務部門搭建不同的ES集群，最後又要運維多個ES集群，工作量還是很大。

當投入了很多人力，終於能夠把日誌平台維持日常使用，這時候公司財務找過來了，說我們用了非常多的機器，成本太大。這時候開始要優化成本，但是思來想去就是需要這麼多台機器，每天大部分的機器水位都在20%-30%，但是高峰的水位可能到70%，所以不能撤，撤了高峰頂不住，這時候只能搞搞削峰填谷，又是一堆工作量。

上述這些是一家中等規模的互聯網企業在日誌平台建設中經常會遇到的問題，在阿里這些問題會放大非常多倍：

比如面對雙十一的流量，市面上所有的開源軟件都無法滿足我們那麼大流量的需求。

面對阿里內部上萬個業務應用，幾千名工程師同時使用，併發和多租戶隔離我們必須要做到極致。

面對非常多核心的訂單、交易等場景，整個鏈路的穩定性必須要求3個9甚至4個9的可用性。

每天如此大的數據量，對於成本的優化顯得極為重要，10%的成本優化帶來的收益可能就有上億。

阿里K8s日誌方案

針對上述的一些問題，我們經過多年的時間，開發並打磨出這樣一套K8s日誌方案：

使用我們自研的日誌採集Agent Logtail實現K8s全方位的數據採集，目前Logtail在集團內有數百萬的全量部署，性能、穩定性經過多次雙十一金融級考驗。

化繁為簡，數據隊列、清洗加工、實時檢索、實時分析、AI算法等原生集成，而不是基於各種開源軟件搭積木的形式實，大大降低了數據鏈路長度，鏈路長度的降低也意味着出錯可能性的減少。

隊列、清洗加工、檢索、分析、AI引擎等全部針對日誌場景深度定製優化，滿足大吞吐、動態擴容、億級日誌秒級可查、低成本、高可用性等需求。

對於流式計算、離線分析場景這種通用需求，無論是開源還是阿里內部都有非常成熟的產品，我們通過無縫對接的方式來支持，目前日誌服務支持了數十種下游的開源、雲上產品的對接。

這套系統目前支撐了整個阿里集團、螞蟻集團、雲上上萬家企業的日誌分析，每天寫入的數據量16PB+，開發、運維這樣一套系統問題和挑戰非常多，這裏就不再展開，有興趣的同學可以參考我們團隊的技術分享：。

總結

本篇主要從架構層面去介紹如何搭建一套K8s的日誌分析平台，包括開源方案以及我們阿里自研的一套方案。然而實際這套系統落地到生產環境並有效運行還有很多工作要做：

K8s上以什麼樣的姿勢來打日誌？

K8s上的日誌採集方案選擇，DaemonSet or Sidecar？

日誌方案如何與CICD去集成？

微服務下各個應用的日誌存儲如何劃分？

如何基於K8s系統的日誌去做K8s監控？

如何去監控日誌平台的可靠性？

如何去對多個微服務/組件去做自動的巡檢？

如何自動的監控多個站點並實現流量異常時的快速定位？

後續文章我們會一步一步來和大家分享如何把這套系統落地，敬請期待。

" 阿里巴巴雲原生微信公眾號（ID：Alicloudnative）關注微服務、Serverless、容器、Service Mesh等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐，做最懂雲原生開發者的技術公眾號。"

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※為什麼 USB CONNECTOR 是電子產業重要的元件?

※網頁設計一頭霧水??該從何著手呢? 找到專業技術的網頁設計公司，幫您輕鬆架站!

※想要讓你的商品成為最夯、最多人討論的話題?網頁設計公司讓你強力曝光

※想知道最厲害的台北網頁設計公司推薦、台中網頁設計公司推薦專業設計師"嚨底家"!!

※專營大陸快遞台灣服務

※台灣快遞大陸的貨運公司有哪些呢?

Orignal From: 一文看懂 K8s 日誌系統設計和實踐

網路資訊

搜尋此網誌

一文看懂 K8s 日誌系統設計和實踐

需求驅動架構設計

需求分解與功能設計

開源方案設計

為什麼我們選擇自研

阿里K8s日誌方案

總結

留言

張貼留言

這個網誌中的熱門文章

Python 併發總結，多線程，多進程，異步IO

高雄十大包子名店出爐

韋伯連續劇終於更新期待第一季順利完結

網路資訊

一文看懂 K8s 日誌系統設計和實踐

需求驅動架構設計

需求分解與功能設計

開源方案設計

為什麼我們選擇自研

阿里K8s日誌方案

總結

留言

張貼留言

這個網誌中的熱門文章

Python 併發總結，多線程，多進程，異步IO

高雄十大包子名店出爐

韋伯連續劇終於更新 期待第一季順利完結

韋伯連續劇終於更新期待第一季順利完結