
為進一步促進云計算創新發展,建立云計算信任體系,提升產業技術和服務水平,由中國信息通信研究院、中國通信標準化協會 聯合主辦的第十屆可信云大會于 2023 年 7 月 25 - 26 日在北京國際會議中心舉行,大會重磅發布了最新一批可信云評估結果及最佳實踐案例。 本次 “可信云最佳實踐案例” 共設置六大類別,為云原生界的發展范式提選,共歷時 2 個月,「DaoCloud 道客」的網絡運維巡檢方案和中間件方案 在眾多方案中脫穎而出,獲得云原生容器類和云原生虛擬化云平臺類的最佳實踐。

兩個方案都是在紛繁復雜的需求場景下,應對實際應用場景的查漏補缺而產生的創新方案,不僅更貼合實際生產環境的實際需求,也進一步為云計算行業的標準化體系建設落地提供有力支撐和參考。

「DaoCloud 道客」研發副總裁-潘遠航;云原生網絡團隊負責人、云原生研究院院長-藍維洲,出席會議并領獎。

此外,DaoCloud 研發副總裁潘遠航,參與可信云“平臺工程與 SRE 分論壇”,并發表演講《平臺工程助力研發效能提升的實踐 》。他指出,作為 Gartner 2023 年重要戰略技術趨勢,“平臺工程”旨在為企業的開發團隊提供一個自助開發平臺和最佳實踐,助力效率的提升、業務的專注、標準的統一?;谖覀兩a落地的實踐,分享我們如何配合客戶的平臺團隊,規劃和實現平臺工程定義的平臺能力。
01
最佳實踐
網絡運維巡檢方案
目前巡檢通常有兩類方式,一是被動式巡檢,通過采集應用的信息來確認集群的狀態但是缺少時效性。二是主動式巡檢,采用手動方式給集群注入壓力,觀測集群的情況,但是因為規模大、巡檢頻率高或流程復雜等原因,實施困難。這兩種巡檢方式,在部分巡檢場景下并不能滿足巡檢目的。
「DaoCloud 道客」推出的運維巡檢方案是調研了運維人員的常規巡檢需求而產生的,源于其開源項目 Kdoctor 。Kdoctor 是一款基于主動式壓力注入的巡檢項目,讓網絡、存儲、應用等巡檢任務實現了自動化,基于 CRD 的設計,能夠對接觀測性組件,讓巡檢功能的實施高度產品化,能完成集群網絡聯通性巡檢、coredns 服務巡檢、基礎網絡健康巡檢、http 服務巡檢、本地磁盤巡檢等任務。Kdoctor 的定位不是取代傳統專業的測試工具, 而是希望提供一個簡單、快速、高效的云原生化巡檢工具,來幫助傳統的測試工具完善缺少的功能。 Kdoctor 的主要創新特點:
(1)探針式的巡檢原理:不依賴第三方應用的部署和輸出, 主動向集群注入壓力,采集響應,同時對發壓端的開銷內存用量做了優化, 確保長時間壓測情況下不會出現 Pod 的 OOM,提高了巡檢的可實施性。
(2)高覆蓋度:能夠覆蓋測試到集群中的眾多組件和基礎設施。
(3)縮短巡檢時間:高度適用于大規模集群 的部署和日常運維、故障問題的范圍排查,一定程度上減輕了運維工作量。
(4)巡檢結論準確性高:對運維工作進行了標準化 的實現,以最佳實踐的發壓參數和配置實現了巡檢,降低了測試人員的技能門檻。
(5)低成本:能夠降低測試環境的準備成本 。
(6)支持多種巡檢報告輸出形式:支持CR status、aggregation API、PVC、本地磁盤、metric等多種方式,可對接后端觀測性組件,繪制集群的相關狀態拓撲圖, 滿足多維度產品需求。
在技術層面上,Kdoctor 主要由如下組件構成:
(1)Kdcotor controller,主要的工作是實施巡檢任務的管理。當管理員下發具體的巡檢任務 CR 時,Kdcotor controller 就會動態啟動一組相應的 task agent pod 來實施。
(2)Kdcotor agent,它以 daemonset 或 deployment 存在,是巡檢任務的具體實施者,按需運行在集群中的每一個角落,實施巡檢任務,當 task agent pod 完成巡檢任務后,會把巡檢結果更新到巡檢任務 CR status 中,也會把具體的巡檢報告匯聚發送到 Kdcotor controller。

Source: DaoCloud
適用場景:
(1)部署大規模集群后,實施一次性的巡檢任務,確認集群的網絡和磁盤正常,應用部署的資源和副本數量正確,滿足期待的性能。
(2)集群日常運維中,實施周期性的巡檢任務,完成實時監控,第一時間發現問題。
(3)集群出現故障后,可實施問題覆蓋范圍的排查。
(4)輔助各種云原生項目在 CICD 環節中的 E2E 測試。
(5)相關組件出現問題后,可用于實施流量壓力注入,配合 Bug 復現排查。
(6)測試第三方應用的灰度發布、升級等場景下的業務連續性。
運維人員在集群部署、日常監控、問題范圍排查、問題復現等場景下,缺少專業的、自動化的、云原生的巡檢工具,這給運維人員的工作增加了額外的負擔,Kdoctor 的使用不僅可以降低運維人員巡檢過程中的時間和人力成本,同時提升了各項目組的運維效率。
02
最佳實踐
中間件方案
該方案是基于中間件能力提供的服務方案,在其中,中間件服務提供了一個強大的工具集,用于管理和監控應用程序,可提高應用程序的可靠性和穩定性,減少人工干預和人為錯誤,主要有以下功能:1、可以自動化應用程序的管理任務 ,例如配置和部署等。2、提供了豐富的監控和報告功能 ,能夠輕松地跟蹤應用程序的性能和健康狀況,提高應用程序的可用性和響應能力。3、提供了強大的自動擴展功能,能夠根據應用程序的需求自動增加或減少資源,從而提高應用程序的效率和可擴展性。 該方案的創新性在于容器化的使用 ,可以無需關心底層操作系統、網絡和存儲等細節,保障數據庫的資源獨立性和安全性,通過結合云原生技術 也可以擁有 Kubernetes 所帶來的自動伸縮、簡化部署、部署靈活、高可用性、自動化運維等能力,實現了 Kafka-operator 從 java 到 Go 的語言轉變,利用 Go 語言一樣能對 Kafka 的實例進行管控, 該中間件服務也可以支持多種中間件從而提高資源利用率。該方案的技術能力特點: 1.統一架構: 整體模塊支持多種中間件,通過統一的框架完成不同中間件管理,在擴展和維護方面表現更加優秀。2. 靈活拓展: 通過預留配置接口,可以更方便地實現應用遷移,在升級和環境變更時給運維團隊帶來更多便利。3.高可用性: 通過結合云原生技術,相較于傳統中間件模式可以做到極大的高可用,通過自動故障檢測使中間件節點按需遷移到性能更高,穩定性更好的計算及存儲節點等基礎設施中,對于中間件連續可用性及穩定性都有了質的飛躍。4. 高穩定性: 通過結合 Kubernetes Operator 技術,可以動態管理高可用中間件的整體狀態,極大地減少了用戶使用中間件過程中需要定期關注監控告警并手動維護的工作量。5. 多云能力: 通過結合 DaoCloud Enterprise 5.0 整體產品的跨集群打通能力,可以使中間件具備主從按集群分離部署的能力,有效減少了在極端情況下整個集群不可用時業務應用使用中間件異常的風險,為企業業務應用多中心多活等場景提供了底層保障。適用場景 :1. 當用戶需要快速創建和管理中間件時,該方案提供了完善的產品功能和交互界面,用戶可以通過界面快速方便地創建和管理中間件實例,比起傳統模式通過命令行或腳本操作極大地提高用戶體驗。2. 通過 Operator 機制保證中間件實例在遇到問題時的快速自愈能力,讓運維人員無需長時間關注監控和告警來手動管理中間件各節點。
03
總結
此次兩個方案獲得中國信息通信研究院、中國通信標準化協會等專業機構的一致認可,是激勵「DaoCloud道客」不斷前進的動力,我們會不斷地在業務實際使用場景中升級、迭代并創新出更完善的解決方案,幫助每一個使用DaoCloud Enterprise 5.0 產品的客戶獲得更好的體驗,助力企業數字化轉型的成功落地。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!