AWS 再次發生宕機事件,雲時代下的我們該如何補救?

屋漏偏逢連夜雨。據外媒 ZDnet 報道,美國東部時間上午 10:26 左右,AWS 網絡再次開始出現嚴重的問題。根據 Outages 郵件列表(供 ISP 和網絡運營商報告和跟蹤重大互聯網問題的中央郵件列表)上的報告顯示,AWS 托管服務於早晨開始變得“不穩定”。

許多基於 AWS 的業務服務,如雙因素身份驗證端點安全服務 Duo、視頻會議平臺 Zoom、消息傳遞服務 Slack,以及 Hulu、Xbox Live 和 Halo 在內的娛樂服務均受到瞭不同程度影響。

一周前 AWS 的宕機事件

之所以用“再次”,是因為在本月的 7 號,AWS 已經發生瞭一次大規模的宕機事件,此次宕機事件對亞馬遜配送業務造成瞭嚴重破壞,以及 Facebook、Coinbase、Robinhood、迪士尼+、Netflix、任天堂等網站紛紛“躺槍”,彼時亞馬遜在篩查問題後給出解釋稱:

絕大部分 AWS 服務和所有客戶應用都在其主網絡內運行,但它還用一個內部網絡托管瞭基礎性的服務,包括監視、內部 DNS 服務等。鑒於其重要性,AWS 用瞭多個地理位置上隔離的網絡設備連接到這個內部網絡,大幅擴展網絡容量,確保其高可用性。12 月 7 日 7:30 AM PST,主網絡的一個自動容量擴展活動意外引發瞭內部網絡客戶端的活動,導致瞭連接激增,連接內部網絡和主網絡的網絡設備出現擁堵,通信延遲,引發瞭持續的擁堵和性能問題,影響到瞭團隊實時監控的能力,使得他們難以快速識別問題的根源,隻能依靠日志判斷發生瞭什麼。

亞馬遜回應其已采取瞭行動確保相同的問題不會再次發生。但如今 AWS US-West-1、2 再次發生問題,AWS 雖然迅速發佈報告,排查出問題出在美國西部 1 區和 2 區兩個區域的互聯網連接上,並表示“我們已經解決瞭影響與 US-WEST-1 區域的互聯網連接的問題。區域內的連接不受此事件的影響。問題已得到解決,服務運行正常。”但仍有不少用戶反駁道,“它看起來已經穩定瞭一些,但仍然存在一些 Bug。”

宕機原因

如今上雲時代,雲計算為數字化建設帶來的功能性、效率與穩定性不容置喙,不過宕機事件也時有發生,且全球領先的雲計算平臺也未能幸免。在探究宕機的主要原因時,我們發現主要有以下幾種:

  • 人為錯誤。這是唯一一種可歸類於物理、軟件層面的因素。人存在很大的“不確定性”,也正因此,很多雲服務提供商會在產品中借助 AI 等技術來提高系統的智能與自動化功能,盡量減少人為錯誤帶來的影響。
  • 網絡問題。在這一層面上,雲服務商通常會與電信提供商合作,其中關於網絡問題,尤其是連接問題會超出雲提供商的控制范圍,他們必須要依賴本地的通信服務商們。不過,現在比較好的一點是,如果雲服務商在全球范圍內都有運營政策,且在不同地理位置的數據中心之間平衡工作負載,這樣當網絡出現中斷時,他們會在合作夥伴解決網絡中斷的同時也能夠繼續為終端用戶提供服務。
  • 停電。它是一種常見的物理原因,這對不同國傢的電網或獨立發電廠的電源提出瞭很高的要求。幸運的是,很多雲服務供應商的數據中心會有備用發電機,如果發生斷電等情況,數據中心的備用發電機可以支撐一段時間。
  • 網絡安全。與很多人常規想象中的有所不同,其實網絡攻擊是雲服務商無法使用雲服務中極其罕見的原因之一。因為通過分佈式基礎設施,雲服務已經具備很強的抵禦能力,網絡攻擊事件雖有不少,但真正能夠成功的並不多見。
  • 環境原因。雲服務廠商無法控制的一件事就是自然災害或與天氣相關的事情,如颶風、雷暴、海嘯和地震等等。
  • 維護問題。雖然最終用戶隻需為他們使用的服務付費,但雲提供商需要維護、管理和運營他們整個復雜的 IT 基礎設施。在這個過程中,雲提供商也許按計劃改進和升級系統,但也有可能會導致計劃內的服務中斷或系統完全重啟。

宕機無法 100% 避免,我們所能做的就是在日常的操作、開發、使用過程中去降低出錯率的同時,也正如微軟顧問咨詢服務大中華區 Cybersecurity 首席架構師張美波曾建議道:

“雖然雲計算技術帶來瞭按需服務、高擴展性、超大規模資源支持等優點,但是同樣的,由於雲計算平臺的用戶、應用和數據資源的高度集中,從而在雲計算平臺出現故障時,會導致更為嚴重的破壞和影響。
因此強烈建議大傢在選擇雲計算服務平臺時,盡量選擇更安全的、更具有領先技術的全球領先雲計算平臺。”

此外,我們也不妨通過數據周期性備份、異地多活部署等方案來為雲上數據加一份保險。