More  

小編的世界 優質文選 主機

服務器又崩了?揭秘如何打造一款真正高可靠的服務器


2021年8月20日 - 主機小編 浪潮企業級解決方案 
   

浪潮企業級解決方案

浪潮(北京)電子信息產業有限公司

浪潮信息服務器產品線副總經理 陳彥靈

我們經常會在熱搜上看到某個網站崩了,某個APP服務器走丟了,這背後,都是對服務器安全及可靠性的擔憂。尤其是政府、金融、電網以及鐵路等行業對IT基礎設施的可靠性以及安全性要求極高的行業應用,一旦系統出現問題,對用戶來說可能是上千萬甚至是上億的損失。

可靠性4959,如何達到?

談及服務器的可靠性,業內人士常常會用4個9或者5個9,也就是99.99%與99.999%。看上去雖然4個9與5個9的差距僅有微乎其微的0.009%,但是對於核心系統而言,恰恰是這不到0.01%的差距,決定了系統的可靠性完全不在一個層級。

4個9與5個9的可用性,在一年的時間維度上,相差了47.304分鐘,平均一個月相差僅4分鐘,但是一家大型商業銀行如停機超過半小時造成的業務損失與聲譽等損失可達數億元人民幣,並且這種損失有逐年遞增的趨勢。因此大型商業銀行需要服務器的可靠性達到“5個9”級別(一年間業務中斷時間不能超過5.256分鐘)。而比如在電網行業與鐵路行業,服務器的可靠性直接關系到居民的用電安全以及乘車安全,因此電網與鐵路行業對服務器的可靠性要求同樣達到“5個9”的更高級別。

其實,服務器的可靠性並不完全取決於硬件,而是由軟件和硬件來共同決定的,想要一款高可靠的服務器,就必須從元器件的選擇、硬件架構設計、生產組裝、品質檢測各個環節嚴格把控。多年以來,浪潮在服務器領域積累的豐富的設計制造經驗,並將這些經驗不斷總結提煉,形成了一套獨有的方法論。

精細考量


不放過任何一個元器件

千裏之堤毀於蟻穴,任何一點小小的瑕疵,都可能成為引起整個系統崩潰的元凶。一台服務器擁有至少5000多個元器件,每一個元器件的選擇都不能容許任何瑕疵,所以選擇可靠的元器件是最基礎,卻也是最不容忽視的關鍵一步。

浪潮服務器在選擇元器件時,首先會對眾多供應商的產品質量、技術水平、響應速度以及環保標准等方面進行綜合考量,從中選出滿足標准的供應商。同時,浪潮服務器要求所有元器件滿足高於國家通用規範的降額設計標准,即元器件在工作中承受的極限應力小於額定值,並留有足夠的應對極限情況的餘量,其實主要是電應力和溫度應力,保障高可靠的電性能及較低熱衰減,大大降低故障率,提升系統可靠性。

此外,為了確保所有元器件並非“外強中幹”,浪潮還會采用諸多先進的元器件分析設備,如雙束聚焦離子束顯微鏡、等離子刻蝕機等,對其進行剖析、驗證、失效分析等,以確定器件的工藝水平、質量滿足浪潮服務器生產要求。

潛在故障預測分析


將一切隱患扼殺在搖籃

我們知道,雖然大部分企業業務系統都有故障預警應急機制,而大部分服務器等IT基礎設施也都有故障快速定位功能,但是浪潮服務器追求的卻是從產品設計階段就把所有可能存在的潛在問題快速識別出來,從而預先采取防禦措施,將一切隱患扼殺在搖籃裏。

在產品設計階段,浪潮針對所有板間互聯信號和關鍵器件的工作狀態進行仿真分析,確保無故障遺漏,並對故障進行預測識別和優化處理。同時要進行系統級故障監測、預警及隔離開發,對於所有風險,要求盡最大可能避免,對於需要處理的故障,要求能夠快速監測定位。

浪潮服務器盡量在設計階段最大限度地消除潛在的可靠性隱患,在產品發生故障之前提前進行分析,確保各組件之間實現最高可靠協同運行。

關鍵系統創新性設計


給可靠性再加一道保險

浪潮對服務器的散熱系統、存儲系統以及系統備用等方面不斷進行創新性探索和研究,保障服務器可靠性在整機層面臻於極致。

服務器為了追求更高密度,不斷壓縮空間,對散熱帶來了很大的挑戰,在現有的風冷致冷條件下,浪潮服務器采用了許多創新性散熱設計,例如在M6系列服務器中增加蜂窩波導散熱網,對風扇入風處風流做整流處理,提高風扇進風口的流速並且減少了擾流的產生,加大波導網厚度可進一步提高空氣壓力,產生平行穩定且強勁的氣流,相比傳統服務器,散熱效率整體可提升22%。

存儲型服務器因為配備了大量的硬盤往往面臨著共振問題,針對這個問題,浪潮服務器的硬盤托架專門選擇了航空減震材料,能夠有效抗震,保證硬盤安全的同時大幅降低故障概率。同時配備硬盤故障監控、預警功能,可對硬盤無法讀寫、硬盤RAID信息損壞、硬盤讀寫速度變慢、硬盤溫度過高等故障進行快速告警。

浪潮服務器注重熱插拔設計,對電源模塊、風扇模塊、存儲模塊、IO模塊等關鍵模塊均采用冗餘設計,可實現在線更換,保證系統穩定可靠的運行環境。

魔鬼般檢測標准


確保都是精品

在汽車屆著名的達喀爾拉力賽,被稱為勇敢者的遊戲,參賽選手們需要在最短時間內穿越無人的沙漠險地。由於賽程地勢險峻、氣候惡劣,對汽車和車手堪稱魔鬼般的歷練,沒有強大的技術和品質保證,很難跑完全程。在浪潮的實驗室,每一款服務器出廠之前也都要經過“達喀爾拉力賽”:跌落、沖擊、雷擊、高低溫、高低濕、鹽堿、噪聲、電源、老化、失效分析……測試,覆蓋了產品設計驗證、測試到產線質量保障等14個技術平台,解決從產品可行性驗證、產品和部件各類測試、量產問題消除等覆蓋全生產鏈的技術問題。

浪潮服務器生產線配備老化實驗室,對服務器進行加速壽命試驗。這主要是為了加速暴露母板的設計缺陷和薄弱點,並對暴露的缺陷和故障從設計、工藝和用料等諸方面進行分析和改進,從而達到快速提升產品可靠性的目的。

此外還會進行超過業界標准的電磁兼容性測試,所謂電磁兼容,就是對電子產品在電磁場方面干擾大小(EMI)和抗干擾能力(EMS)的綜合評定,是產品質量最重要的指標之一,涉及傳導抗擾度、射頻抗擾度、靜電抗擾度等多項測試指標。

為了讓服務器具備更強的環境適應性,浪潮服務器還會模擬運輸環境測試、氣候環境測試和極限環境測試,進行三大類幾十種測試,檢驗服務器在各種條件下的可靠性,測定耐受高低溫、跌落、高濕等惡性環境的極限。例如進行45度/分鐘的溫度劇變試驗,在零上100和零下40-50度進行產品溫度極限測試,30G震動過載抗振強度,模擬海拔12000米的環境進行高空低氣壓測試等。

百煉成鋼


磨礪鑄就完美

通過前面的介紹可以看出,想要鍛造一款真正高可靠的服務器,需要每個階段全方位的努力,對元器件嚴苛的品質管理,對產品設計快速准確的自我糾錯能力,對產品系統設計的不斷創新,對出廠產品的一道道檢測標准,只有這些都不斷做到完美,才能產出真正高可靠的服務器。

浪潮服務器正是秉承著這樣的原則,一步步打造出全新的M6系列服務器,針對智慧時代需求設計,包括面向雲計算、大數據、人工智能等應用場景的6大系列16款產品,以業界最為豐富的場景產品陣列為用戶數字化轉型提供更加強大的算力支撐。