科技云報到原創。
人們的生活里,充滿了很多看似理所當然的事情:只要網上下單,過幾天想要的東西就會出現在樓下快遞柜;飯點一到,按動幾下手機很快會有熱氣騰騰的飯菜送上門;下班了往沙發上一躺,與三五好友開黑享受片刻歡愉……假如這一切忽然消失,世界會變成怎樣?
很多時候,關鍵業務數據意外丟失,或某些內部或外部基礎服務上一個小小的錯誤配置導致半個地球范圍內的服務中斷……所有這些不確定性,不僅讓業務時刻面臨風險,還會讓企業聲譽遭受不小的影響。
有這一句話:破壞穩態的難度越大,我們對系統行為的信心就越強。如果發現了一個弱點,那么我們就有了一個改進目標。避免在系統規;蟊环糯蟆
以往在本地部署和運行關鍵應用時,包括基礎架構、底層硬件在內的很多因素可由企業自行掌控,因此發現并解決弱點還是好處理的。但當企業開始上云,通過云平臺運行這些關鍵應用時,底層基礎架構的管理和維護由云平臺承擔,這時又該如何解決弱點,打造更穩定、更有韌性的云基礎設施和應用程序?
當不穩定正在成為常態
今年7月19日,微軟公司旗下多個應用和服務出現訪問延遲、功能不全甚至無法訪問的問題。從美國到歐洲,再到亞洲多國,大量用戶的電腦突然藍屏,提示系統遇到問題需要重啟。此次事件波及范圍之廣、影響之大,堪稱近年來少有的全球性技術故障。
此次微軟服務中斷事件對全球多個行業造成了嚴重影響。航空公司方面,美國邊疆航空公司、Allegiant航空、SunCountry航空等多家航空公司因系統問題取消了數百個航班,造成旅客滯留和行程延誤。
金融領域,以色列、南非等國的銀行系統受到波及,澳大利亞超市的自動收銀機也出現結算異常。此外,電信、媒體、醫療等多個行業也不同程度受到影響,倫敦證券交易所的部分服務也一度中斷。
在國內,雖然三大航及北京首都機場和大興機場的國際航班運行正常,但仍有部分外企及酒店等服務業受到波及。例如,上?等R德酒店就因系統問題影響了客戶入住和退房流程。
面對全球范圍內的服務中斷和藍屏問題,微軟迅速做出回應,其表示,問題的根本原因在于第三方殺毒軟件CrowdStrike的一次錯誤更新。經過事故調查,此次事件的核心技術原因在于CrowdStrike的安全軟件更新與Windows系統之間的不兼容。
CrowdStrike作為全球知名的網絡安全公司,其安全軟件廣泛應用于企業環境。然而,在7月19日的更新中,CrowdStrike推送了一個與某些Windows系統特性不兼容的更新,觸發了系統級的錯誤,最終導致藍屏死機。
Windows作為全球最廣泛使用的桌面操作系統之一,其穩定性直接關系到數億用戶的日常工作和生活。然而,隨著技術的不斷發展和應用的日益復雜,系統穩定性的挑戰也在不斷增加。
此次事件再次提醒我們,即使是像微軟這樣的行業巨頭,也無法完全避免技術故障的發生。因此,對于操作系統提供商而言,持續優化系統架構、提高代碼質量、加強兼容性測試等工作顯得尤為重要。
隨著云計算技術的普及,越來越多的企業和服務依賴于云服務提供商。然而,這也帶來了新的挑戰。一旦云服務提供商出現服務中斷或故障,將直接影響依賴其服務的企業和個人。此次微軟服務中斷事件就充分展示了云計算時代面臨的這一挑戰。因此,云服務提供商需要加強自身的技術實力和穩定性保障能力,確保能夠為用戶提供持續、穩定的服務。
為什么云中會出現臨時性故障?
任何環境、任何平臺或操作系統以及任何類型的應用程序都會發生臨時性故障。在本地基礎架構上運行的解決方案中,應用程序及其組件的性能和可用性通常由昂貴且利用率不足的冗余硬件來保證。
雖然此方法使故障的可能性降低,但仍可能導致臨時性故障,甚至因外部電源、網絡問題或其他災難情況等不可預測的事件而中斷。
托管型云服務雖然可以跨多個計算節點使用共享資源、冗余、自動故障轉移和動態資源分配,實現更高的整體可用性,但是這些環境的性質意味著更可能發生臨時性故障,導致故障的原因有很多類型。
首先,由于云環境中的許多資源是共享的,為了有效管理這些資源,云通常會嚴格管控對這些資源的訪問。例如,某些服務在負載上升到特定級別,或到達吞吐量比率上限時,會拒絕額外連接以便處理現有請求,并為所有現存用戶維持服務性能。限制有助于為共享資源的鄰居與其他租戶維持服務質量。
其次,云環境使用大量商用硬件單元構建而成。云環境將負載動態分散到多個計算單元和基礎架構組件上以獲得更多性能,并通過自動回收或更換故障單元來提供可靠性。這種動態性意味著可能偶爾會發生臨時性故障或暫時性連接失敗。
第三,在應用程序與資源及其使用的服務之間,通常有多個硬件組件,包括網絡基礎架構,例如路由器和負載均衡器。這些附加的組件偶爾會導致額外的連接延遲或臨時性連接故障。
第四,客戶端與服務器之間的網絡狀況會不時改變,尤其是通過互聯網通信時。即使在本地位置,高流量負載也可能減慢通信速度,并造成間歇性的連接故障。
云韌性如何保障業務連續性?
韌性作為衡量應用程序抵御及快速恢復中斷能力的關鍵指標,涵蓋應對基礎設施故障、依賴服務中斷、錯誤配置、網絡問題乃至負載激增等多方面的能力。
在數智化轉型的今天,云端韌性不僅是IT系統穩定性和可靠性的體現,更是企業業務連續性和市場競爭力的關鍵所在。一旦云服務出現中斷,可能導致企業運營受阻、客戶體驗下降甚至數據丟失等嚴重后果。因此,構建云端韌性已成為企業IT戰略不可或缺的一部分。
面對自然災害、網絡攻擊、系統故障等不確定性因素,云端韌性顯得尤為重要。作為全球領先的云計算服務提供商,亞馬遜云科技以其卓越的技術實力和豐富的實踐經驗,在云端韌性領域樹立了標桿。
亞馬遜云科技大中華區解決方案架構總經理代聞表示:“亞馬遜云科技去年每天穩定啟動的Amazon EC2實例超過1億,每秒API請求數高達100萬億。正是因為做對了很多事情,才有今天全球數百萬客戶的選擇和信任。”
亞馬遜云科技云端韌性的三大支柱涵蓋:韌性的基礎設施,通過全球布局與冗余設計確保服務的全球可達性和高可用性;韌性系統架構,通過單元架構和數據面與控制面的分離,減少故障影響范圍,提升系統可用性;卓越的運營機制,通過的DevOps文化與自動化工具,促進團隊協作與持續改進,提升運維效率和響應速度。
在全球范圍內,亞馬遜云科技構建了龐大而高效的數據中心網絡,設計了區域、可用區、數據中心的層級設計,并覆蓋了主要的市場區域。亞馬遜云科技在全球34個地理區域部署108個可用區,包括在中國大陸的北京和寧夏兩大區域,每個區域均包含三個或更多獨立電力、制冷及物理安全設施的可用區,且這些可用區之間距離適中,約100公里內,確保高可用性和低延遲。
這些基礎設施不僅地理位置分布廣泛,而且通過高速骨干網絡相互連接,形成了一個強大的全球云計算網絡。這種全球布局不僅降低了延遲、提高了數據傳輸效率,還為跨區域的數據備份和容災提供了便利。
每個區域內,亞馬遜云科技都設有多個可用區(AZ),每個可用區下又有數個數據中心相連。三個層級內外部均提供低延遲網絡互連,并配備了獨立的電力供應、冷卻系統和物理安全設施。這種多可用區的設計有效降低了單點故障的風險,即使某個可用區出現故障,其他可用區仍然能夠正常運行,確保服務的連續性。此外,亞馬遜云科技還提供了跨區域的數據復制和故障轉移解決方案,如Amazon S3的跨區域復制功能,確保用戶數據的安全性和可用性。
除了基礎設施的審慎選址和分散式的布局,云服務的韌性也與其使用的技術架構有著重要的關聯。越是在技術層面事先做好對風險的分散,一旦面臨問題,所遭受的損失可能就會越小。
對此,亞馬遜云科技提出了“控制平面”和“數據平面”分離的原則。從軟件架構層面來說,云服務的控制面往往包含更多組件,因此其在概率上發生故障的可能性更大。但是對于絕大多數的云服務來說,控制面并非是日常運行所必須。
將控制面與數據面分離帶來的一個好處是,假如控制面所在的機房、或者控制面軟件本身出現故障,那么由于數據面依然完好、且能正常運作,此時云服務頂多只是表現為無法新建任務或無法進入后臺控制UI,但正在運行的云端程序本身則完全可以不受影響。對于許多企業用戶來說,這將會使得故障變得對用戶而言幾乎“不可察覺”,甚至不會對業務本身造成顯著的負面影響。
此外,亞馬遜云科技還提出了“爆炸半徑”的概念,它指的是故障發生時、具體的軟硬件影響范圍。為了解決這一問題,亞馬遜云科技采用了“單元架構”設計,將單個服務進一步切分為多個部署堆棧,每一個部署堆棧服務于一個或多個客戶。這樣一來,單一堆棧故障影響的范圍就會更小,不再累及整個可用區或整個服務。
在運營機制方面,亞馬遜云科技推行DevOps文化,強調開發與運維的緊密聯系。在亞馬遜云科技內部,每個服務團隊都對其負責的服務擁有完整的所有權和運維責任,這種機制確保了服務的穩定性和可靠性。通過打破傳統開發與運維之間的壁壘,亞馬遜云科技促進了團隊協作和持續改進,提高了整體運營效率。
亞馬遜云科技提供了豐富的自動化工具來支持運營機制的實施,這些工具涵蓋了資源部署、配置管理、性能監控、故障排查等多個方面。例如,Amazon CloudFormation允許用戶通過模板化的方式來部署和管理亞馬遜云科技資源,大大簡化了資源管理的復雜性;Amazon OpsWorks則提供了一套自動化運維解決方案,幫助用戶實現應用的快速部署、配置和擴展;Amazon DevOps Guru利用AI和機器學習技術實現對系統的實時監控和故障預測,進一步提升了系統的韌性和穩定性。
構建云韌性是一個持續的過程,而不是一次性的努力,需要在業務需求、可靠性、成本和系統復雜度之間找到平衡點。正如亞馬遜首席信息官Werner Vogels說的那樣,“Everything fails all the time”(故障總在情理之中、意料之外)。
無論是對于云計算企業、還是對于志在“上云”的企業而言,故障的概率永遠都不會是0%。在這個基礎上,良好的基礎設施、成熟的服務架構、有經驗的運營團隊,以及一切為客戶著想的業務機制,總能幫助企業將風險化解于無形。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。