7月13日23時許,B站客戶端和網頁端均出現訪問故障,無法打開,頁面提示“正在玩命加載數據”。不久后,“B站崩了”話題也迅速登上微博熱搜。
約在23時45分,B站網頁端和APP才恢復正常。14日凌晨,B站微博發布致歉聲明,稱部分服務器機房發生故障,造成無法訪問。外界猜測,本次事故可能是由于服務器宕機所致。
什么是服務器宕機?
服務器宕機指的是由于某些原因導致服務器無法正常運轉,造成網絡無法使用。對于網站來說,服務器宕機帶來的影響很大,不但影響用戶對網站的正常訪問,還會影響網站在搜索引擎上的排名以及對外的品牌形象。
服務器發生宕機的原因
1.服務器環境的客觀原因
如機房突然斷電,或者是溫度過高,服務器就會出現死機、關機的情況,不過這種情況發生的概率較小,正規的IDC廠商都會做好預防措施,備用電路和發電機以及智能恒溫系統都可有效預防這種情況的發生。
2.服務器不堪負重
這是一種比較常見的情況,由于網站的流量突然大量增加,或者是受攻擊、程序中毒等,導致服務器壓力驟增,資源耗盡,造成死機的情況。
3.不合理的應用
如公司為了減少成本的投入,租用一些配置和性能較低的服務器,若在這種服務器上安裝一些大型軟件,很容易造成服務器超負荷運轉,發生宕機情況。
除此之外,還有很多的細節也能導致服務器宕機,比如環境配置、錯誤程序、數據庫丟失等也是常見原因。
服務器宕機解決方案
1.共享存儲集群
在單機單柜的基礎上,增加1臺備用主機,即可構建基于共享存儲的熱備集群。增加1臺物理服務器作為服務器的備機,并在備機部署業務系統,通過共享存儲熱備集群產品,實現對應用的高可用保護。如主機上運行的系統出現異常故障導致宕機,比如應用服務異常、硬件設備故障,可將系統切換至備用主機,以保證網站連續運營和可訪問性。
2.數據鏡像集群
部署兩臺服務器,將其中1臺服務器作為主機,通過活動IP對外提供服務,主機產生的數據會直接寫入主機的本地磁盤,通過網絡實時傳輸到備機,從而保證兩臺服務器數據的一致性。在此基礎上,如果主機出現故障(服務器宕機,應用系統故障,網絡故障等情況),主機會在保證數據一致性前提下,將數據庫切換到備機運行,繼續對外提供服務,確保生產管理系統持續運營工作。
3. 解析宕機切換
將解析指向多個IP,實現宕機切換,保障網站可繼續訪問。中科三方智能云解析系統具備宕機監測與切換功能當發現其中的目標服務器宕機時,可以將解析快速切換到預先配置的備用服務器上,以維持網站的可用性,保證用戶可以繼續通過原域名訪問到正常工作的備用服務器。
4.遠程容災
根據系統環境、網絡環境,結合容災需求等情況,構建遠程容災方案。將管理系統生產服務器的數據實時復制到容災服務器上,確保兩臺機器數據一致性。當主服務器出現故障時,可通過備用服務器快速恢復業務系統;當本地機房完全癱瘓時,可通過容災機房公網IP將服務映射出去,對外提供服務。
5.云容災
將生產中心的數據和業務實時災備至云端,如生產中心出現事故,可迅速利用云端的容災系統及時接管業務。不同區域的云之間,構建數據和業務災備,最大化保障業務系統和數據的安全。
6.雙機雙柜
采用多機雙柜解決方案,為用戶構建高容錯、高安全、高性能的集群容災平臺,以實現多個功能模塊之間相互協作和服務器、磁盤陣列、存儲通道等軟硬件的完全容錯,可有效解決了傳統高可用方案的單點故障,為用戶構建零數據丟失和應用高可用保護的高級集群容災方案。
雖然B站在較短時間內解決了故障,恢復了網站的正常訪問,然而此次事故還是對B站造成了嚴重影響,不但影響了用戶正常訪問,還導致B站股價短線走低。因此,做好服務器宕機防范預案,對于政企單位維護網絡安全,保障業務系統持續性、可訪問性至關重要。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!