AI引發的算力需求到底有多大?各種預測數據雖然并不統一,但可以肯定的是AI和大模型又將帶來新一輪的生產力的變革,在這個技術催生的市場變化中,企業的應用變得更加復雜,業態會更加豐富,底層架構單一的CPU或者GPU已經不能滿足需求??偠灾?,企業面臨的技術和平臺挑戰將是空前的。
青云科技(qingcloud.com)總裁林源分析說:“從算力建設的角度去看,現在是算力集中建設的階段。大量的算力中心如雨后春筍般出來,成本和技術是最大的挑戰。如果說建設期就是蓋機房、購買設備,那么中長期的運營則是更專業、更復雜的問題。這些問題都需要解決,青云也給出了自己的答案,這就是青云最新推出的AI算力調度平臺。”
多元算力調度,管理AI基礎設施
“在近兩年運營過程中,我們總結出一些這個行業當前面臨的挑戰,同時它也是青云所需要解決的問題。”青云科技產品經理苗慧在分析行業挑戰的同時,也給出了青云科技的解決方案。
首先,解決行業多元資源統一調度管理的問題。
在AIGC領域,行業面臨的普遍問題是大文本和大量行業數據加速,不同的資源需要統一平臺進行管理。比如,一個影視渲染行業的用戶,需要渲染一部大電影,他們可以通過青云的平臺進行分發,即時構建環境調度需要用到的渲染資源。
在AI訓練方面,用戶通過開源的人類自然語言模型訓練圖片、數據,做模型微調,再加上自己的行業知識,也能通過青云統一的多源資源調度管理平臺進行分發管理。
對于管理員來說,通過青云的平臺,只要通過一個管理界面、一個大屏,就能看到其分布在全國的2000臺資源,3000個存儲節點等等,以最少的人力大大提升管理運維效率。
二、解決AI應用的網絡瓶頸。青云通過多種方式來解決網絡瓶頸的問題。在高速組網方面,青云基于傳統的云計算領域,增加了高速網絡,并針對不同種類和型號的網卡做了網卡虛擬化和完全的子網隔離,以確保用戶無論是按卡申請還是按節點申請,都能保證數據的安全隔離,保證用戶之間不存在這種數據的風險。
在通信鏈路方面,這也是青云在AI算力調度平臺著力最多的地方。青云將所有的節點、服務器、存儲設備都做出了路徑標簽,設置最佳路徑距離。通過算法,投入調度最短鏈路,計算最短鏈路,保證最好是兩個節點在一個交換機內,這樣不跨交換機,又減少一些數據的傳輸損耗。
針對AI訓練,青云提供了在線訓練平臺。把高性能計算、GPU卡等匯集成起來,在專屬的環境上,提供GPU服務器在線申請構建集群,所有的網絡和環境都可一鍵生成。并且青云會根據行業內常用的模型和小工具,進行集成。同時,青云在每個區域都有一個小型的容器鏡像中心,與鏡像節點和推理服務進行內網連接,這使得訓練過程更快,遠比在公網上拉數據等要快得多。
第三,解決環境搭建的復雜性問題。算力中心面向眾多的終端用戶,這就注定了它的復雜性。在環境搭建方面,青云有兩種方式為客戶提供常用的鏡像或者容器。
第四,解決多業務整合的瓶頸問題。青云目前已將更多的業務以松耦合的模式嵌入整合到青云云平臺。
第五,解決運維平臺的復雜管理問題。青云提供了更多的運營服務,尤其是算力中心服務。以國家超算濟南中心為例,其后端團隊,既要運維軟件還要負責客戶的各類運維問題,這就需要投入大量的人力還耗時耗力。青云通過一套運維平臺,讓其定價、打折、促銷等,只需要在頁面上點擊按鈕就可實現,而不再需要通過申請表的傳統方式實現。
總結而言,青云AI算力調度平臺的特性主要有:第一,基于多種芯片,包括通用CPU、英偉達GPU、信創芯片等等;第二,全生命周期的管理;第三,AIGC業務化;第四,通過業務化、自動化,讓非計算機行業用戶能一鍵運行數據、業務和模型等。
開放的生態圈,實現AI整體能力的整合
青云AI算力調度平臺是算力中心運營者的關鍵工具,目前其服務的對象主要為現在和未來投入算力中心建設的企業——現在的投資者和未來的運營者。
青云把多年運營服務的經驗融入到了產品、服務體系,并在國家超算濟南中心有了成功實踐。國家超算濟南中心是一個包括HPC超算、傳統云計算(以CPU為主)、智算(兼有國外及國產GPU)的多元計算中心。和眾多算力中心一樣,國家超算濟南中心需要的是滿足客戶需求的、成熟的運營工具和平臺。平臺能力越強,能支撐客戶的業務種類越多,客戶越多,盈利模式越清晰。
青云認為未來 AI 時代,企業一定是通過算力服務、算法和模型、高價值的數據來實現智能化,這也是 AI 生態體系的價值所在。青云也清醒地認識到與不同領域的合作伙伴一起實現整體能力的整合,才能夠更好地幫助企業實現 AI 真正的業務價值。
干自己最擅長的AI算力資源調度,這也與青云科技十幾年來耕耘的云調度平臺、IaaS一脈相承。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!