More  

小編的世界 優質文選 主機

浪潮與騰訊雲聯合發布數據中心服務器智能故障診斷技術白皮書


2021年8月05日 - 主機小編 美通社 
   

美通社

美速通商務咨詢(上海)有限公司北京分公司官方帳號

助力大規模數據中心高效穩定運行

北京2021年8月2日 /美通社/ -- 7月27日,由OCP社區主辦、浪潮承辦的第三屆OCP China Day順利舉行。會上,浪潮聯合騰訊雲發布《數據中心服務器智能故障診斷TIFDS(Tencent & Inspur Fault Diagnosis System)系統技術白皮書》,白皮書詳細解讀了當前大規模數據中心運維面臨的挑戰,闡述了騰訊雲與浪潮聯合研發的TIFDS系統架構,為大規模數據中心提升服務器運維效率,保障數據中心穩定運行提供重要參考。

以騰訊雲數百萬服務器運營數據和浪潮深厚的固件研發專家經驗庫為基礎,“TIFDS”系統可利用AI技術對海量服務器運行數據實時分析,對各類部件故障實時預警,故障診斷“火眼金睛”,故障自動明確化率提升至95%以上,遠超業界平均水平

OCP China Day現場騰訊雲星星海實驗室研發副總監劉超介紹白皮書內容

大規模數據中心服務器猛增 人力運維接近極限

伴隨著互聯網企業的崛起,雲計算市場已走過十多年的時間,據Gartner數據統計,2020年全球雲計算市場快速增長,增速超過40%,中國雲計算市場也持續兩位數增長,市場增長動能逐漸從泛互聯網向產業化快速滲透,增長持續加速

白皮書指出,雲計算的快速擴張帶來了數據中心服務器數量的爆發式增長,隨之而來的服務器運維管理複雜度和難度也越來越大,而傳統的海量服務器故障運營面臨著更大的挑戰和更高昂的成本,從最初的腳本運維、工具運維到平台運維演進至今,人力已接近極限,越來越無法滿足快速修複故障和恢複業務運行的要求為高效管理十萬甚至百萬級服務器,智能化的監控診斷系統成為大規模數據中心必不可少的工具

公布TIFDS系統架構,故障自動明確化率95%以上

TIFDS(Tencent & Inspur Fault Diagnosis System)是騰訊雲與浪潮聯合研發的故障診斷系統,是服務器健康監管技術及故障預警診斷技術的總稱,旨在實現運維工作由人工離線分析向自動智能在線識別的方向發展,建立一套以帶外BMC為中心的故障診斷系統據白皮書介紹,TIFDS系統具有風險實時預警,故障精准診斷和日志定制化透明安全等特點,對提升大規模數據中心運維效率具有重要意義

風險實時預警:該系統基於騰訊雲現網運行的百萬台服務器運維經驗,結合AI智能算法,可對非宕機類故障進行實時預警,降低服務器高負荷運行下突然失效的風險。
故障精准診斷:浪潮構建專家經驗庫,將故障自動明確化率提升至95%以上,遠高於業界平均標准,秒級告警,精准反饋故障觸發源,提升運維效率。
日志定制化透明安全:創新性的按照騰訊雲需求聯合定制日志輸出上報方式,使診斷過程清晰透明,並對疑難問題進行了識別並建立了線上聯合診斷系統,不斷提升系統運維效率。

騰訊雲服務器運營中心副總經理嚴勇表示:“騰訊雲在全球數據中心服務器數量早已超過百萬台,此次發布的TIFDS系統,不僅能大幅提升自身數據中心的服務器運維效率,為騰訊雲平台的穩定運行提供堅實的技術支撐,也將為各類新興應用在公有雲平台的大規模落地提供良好的技術儲備”

浪潮信息研發項目管理部總經理宋曉鋒表示:“TIFDS是數據中心服務器運維技術的重要創新,是騰訊雲與浪潮雙方基於JDM模式,打破原有產業鏈上下遊合作模式,進行聯合研發的又一成果此次,浪潮與騰訊雲將TIFDS架構進行梳理,聯合發布了業界首個數據中心故障運維白皮書,為提升數據中心運維效率和雲計算穩定性具有重要的借鑒意義”