More  

小編的世界 優質文選 科學

迎接人工智能新機遇:青雲AI的“多多益善”與“善將將”


2023年11月22日 - 科學小編  
   

飛象網訊(魏德齡/文)“韓信用兵,多多益善”想必是一個膾炙人口的典故,淮陰侯當時用此來形容自己的領兵才能,當然隨之還有高祖的“善將將”。而“多多益善”與“善將將”的優勢在AI浪潮之下,也正在變為一種行業所必須的能力。

有分析人士判斷,AI市場將會迎來一波長達十年以上的熱潮,AIGC在企業IT中的占比投入一定會越來越高,AI對於需求的刺激將是之前10年的10倍-100倍,算力需求也將隨之出現等量的增長。而“多”恰恰是能夠滿足需求的保障,因為不同的算力需求其背後所調用的超算中心硬件資源也並不相同,正所謂“更多選擇,更多歡笑”,已經實現盈利的國家超算濟南中心就是一個很好的案例。

更多選擇,更多歡笑

以目前常見的幾類AI用例需求而言,很多高校進行的傳統科學計算類應用就需要HPC,才能完成如仿真、模擬、洋流預測、基因檢測等工作;對於傳統的政務雲業務、傳統CRM/ERP企業數字化應用則屬於傳統雲計算需求,就需要調用CPU類資源;目前大熱的涉及道路識別、車牌識別這樣的智慧城市類應用則需要調用GPU的能力。業務的多元需求恰恰決定了對於多元算力的需求。

據悉,僅在三年前國家超算濟南中心就已經擁有1000P算力與300PB以上的存儲,是當時全亞洲最大的算力中心之一,包括了HPC超算、以CPU為主的傳統雲計算,以GPU為主的智算,其中智算兼顧了國產化需求,引入了一部分國產GPU,進而成為了一個既擁有多元算力,又具備異構算力能力的超算中心。

“投資建設一個平台後產生的效益取決於平台能力,因為平台能力越強,能支撐客戶的業務種類就越多。客戶越多,盈利模式越清晰。”三年前參與服務國家超算濟南中心的青雲科技總裁林源向媒體解釋了緣何需要異構計算與多元算力。

反之,如果不擁抱多元算力,僅僅建設一個只支持某一種硬件算力為核心的超算中心,往往會後續實際運營中面臨尷尬。例如,國內某大廠曾在某地建了一個計算中心,但由於只支持某一個GPU,造成當應用需求到來時,卻出現了不兼容的問題,導致出現客戶面變窄的問題。



  

不過,如何調度如1000P的算力與300PB存儲,將多元與異構整合在一起,讓超算中心實現高效運營,如同韓信用兵一般,實現多多益善,而不是陷入管理困局,同樣是一個需要面對的問題。青雲科技作為國家超算濟南中心建設的參與者,恰恰為其提供了統領全局的能力,這就需要提到該公司近日發布的新產品—AI算力調度平台。

青雲AI,多多益善

“我們已經在國家超算濟南中心的實踐成功,證明青雲平台具備能力、乾過,也乾成了。”林源專門表達了對於該產品的信心。青雲AI算力調度平台作為計算中心運營者的關鍵工具,可以建立從建設到運營的閉環,在國家超算濟南中心的案例中,不僅三年前就成功進行了實踐,還助力其不僅運營得好,還實現了盈利。

青雲AI算力調度平台恰恰具備了如“韓信用兵,多多益善”的管理能力,可實現對於GPU算力、HPC算力、多存儲系統、模型資源、數據資源的多元資源統一平台管理,實現算力平台自動資源。還可根據不同的行業需求,通過平台進行資源分發,具備分布式調度與管理能力,自動分配和管理算力資源,大幅縮短任務執行時間,提高工作效率,讓客戶專注於業務創新和應用開發。

平台的管理操作也易如反掌,通過統一運營和運維管理平台,實現多種服務場景的運營化服務的後時,規範化高效運維,幫助用戶實現精細化運營。青雲會為平台管理員交付一個可視化的大屏管理界面,可輕松瀏覽全國的上千台算力資源與存儲。以國家超算濟南中心為例,後端其實只需要10-20人的團隊,就能實現對於軟件的運維,並解決客戶的各類問題。

“青雲通過一套運營運維平台,讓其定價、打折、促銷等,只需要在頁面上點擊按鈕即可。”青雲科技產品經理苗慧表示青雲AI算力調度平台相比傳統雲計算搞申請表之類的日常流程操作,在運維效率上有著明顯優勢。

與此同時,青雲AI算力調度平台還可幫助客戶解決網絡交換速度、環境搭建、多業務整合等問題。

除了大幅提升平台運維人員的管理能力外,對於平台用戶而言,青雲也能進一步提升AI落地的開發效率。面向算法工程師,青雲提供的開發主機,已經內置了一些開發環境和IDE環境,工程師可將Python工程文件等直接傳上去,在線寫代碼、調試、運行,立即找到所需的訓練集群。推理完成後,還能實現算法調優,通過算力集群與模型不斷優化代碼。

另外,青雲還提供了在線訓練平台,將高性能計算、GPU卡等進行集成,在專屬環境上,青雲提供一個GPU服務器在線申請構建集群,所有的網絡和環境均可一鍵生成。同時青雲會根據行業內常用的模型和小工具進行集成。

容器推理平台支持一鍵部署高性能Kubernetes集群,在推理過程中,如果發生一些性能上的擁堵,可以實現負載均衡、彈性伸縮。

青雲還提供了模型倉庫,方便客戶可以通過模型市場立即部署自己的模型,調用自身的服務。同時,還能給予模型進行微調,或在線通過雲平台的形式一鍵獲取。

總體而言,青雲AI算力調度平台實現了像如同管理本地資源般的方式,來管理AI基礎設施,提供多元算力調度與智能化的算力調度,保證算力快速落地。

開放生態,讓客戶“善將將”



  

作為具備了“多多益善”才能的青雲AI算力調度平台來說,第二個問題是用戶是否有機會也能具備“善將將”的實力。實際上,對於未來AI時代而言,由於投資巨大,單一企業可能很難實現“大包大攬”,因為每個方面的成本都將比過去十年更高,僅以一個大模型為例,可能就需要花費大量人力、算力、金錢與時間成本,CPU、IDC建設等同理如此。據此,青雲正在與不同領域的合作夥伴一起實現能力的整合。

“所以我們有一個大膽的設想,在AI領域一定會出現巨頭,但是我們覺得這個巨頭不應該是一家獨立的公司,我覺得它應該是一個小的生態。”林源隆重引出了定位為通過開放生態同盟方式一起運營的青雲AI算力雲服務。

這一設想主要基於三方面的考慮,首先是生態將能夠滿足客戶需要完整解決方案的需求,其次每位專業參與者間都有著彼此的需求,並彼此保持開發,最終志同道合形成長期共贏的同盟。

從客戶需求上看,客戶需求的完整解決方案包括機房、算力、調度平台、模型、模型驅動、Model Service,以及可以運行的應用。其中從算力、模型、服務到應用場景每一層都需要極強的專業性。

青雲AI算力生態體系目前已經圍繞AI 算力基礎設施的生態共享、AI 算力大模型的資源整合以及 AI 數據資源的生態整合實現了構建,進而更好的幫助企業AI實現真正的業務價值。林源在媒體采訪過程將其分類為技術生態與商業生態,其中技術生態包括GPU與模型生態,商業生態則包括計算中心的投資建設、AI最終客戶等。

目前青雲已經實現了從適配、MaaS、共築到最終落地的生態體系整合,涵蓋了從各大知名芯片廠商、模型開發商、雲數據中心提供商等多層面的聯手。對於青雲AI算力雲的客戶而言,正如同是可以調動大量名將的AI開拓者,達到“善將將”的效果。

“每一個新時代到來的時候,大家都站在同一起跑線上,而新的時代可能需要一些新的合作模式與玩法。”林源表示AI時代的到來可能會讓格局發生新的變化。

“多多益善”之後的成功故事自不必表,如今AI正被視作是雲服務之後的又一新機遇,“能做、做過,做成功了”的青雲AI恰巧也已經展現出了“多多益善”的自信,後續的精彩篇章正在開啟。

  大家在看