《開放加速規(guī)范AI服務器設計指南》發(fā)布

來源:經(jīng)濟日報客戶端

在日前舉辦的OCP ChinaDay大會上,業(yè)界首個面向AIGC(生成式人工智能)的《開放加速規(guī)范AI服務器設計指南》(以下簡稱指南)正式發(fā)布。

浪潮信息服務器產品線總經(jīng)理趙帥介紹,該指南面向AIGC實際應用場景,細化完善了開放加速規(guī)范AI服務器的設計理論和方法,明確了硬件設計參考、管理接口規(guī)范和性能測試標準等,將為新興的AI芯片創(chuàng)新提供有力的系統(tǒng)平臺支撐,幫助AI芯片企業(yè)縮短研發(fā)和系統(tǒng)適配周期,大大減少開發(fā)費用,更快釋放算力價值,有效加速多元算力產業(yè)發(fā)展,助力AIGC時代的AI計算產業(yè)跨越“創(chuàng)新”鴻溝。


(資料圖片僅供參考)

加速開放計算產業(yè)發(fā)展,系統(tǒng)級產品創(chuàng)新是關鍵。在基礎硬件、基礎軟件、核心應用、上層生態(tài)間建立起統(tǒng)一的技術路線及標準API接口,將加速器模塊標準化,簡化人工智能基礎架構設計,能夠有效縮短硬件開發(fā)和產業(yè)賦能周期。

當前,以大模型為代表的AIGC熱潮帶來了AI算力需求的爆發(fā)式增長。更豐富的算力資源成為人工智能競爭的核心基石??梢哉f,計算力就是生產力,智算力就是創(chuàng)新力。IDC預計,全球 AI計算市場規(guī)模將從2022年的195億美元增長到2026年的346.6億美 元,其中生成式AI計算市場規(guī)模將從 2022年的8.2億美元增長到2026年的 109.9億美元。生成式AI計算占整體 AI計算市場的比例將從4.2%增長到 31.7%。

AIGC技術創(chuàng)新是一項復雜的系統(tǒng)工程,需要基于海量數(shù)據(jù)集,在擁有成百上千加速卡的AI服務器集群上對千億級參數(shù)的AI大模型進行分布式訓練,這對算力資源的規(guī)模提出了極高的要求,也對算力系統(tǒng)設計帶來了新的挑戰(zhàn),要求單機具有更高的擴展性、集群具有更高的加速比,由此對卡間互聯(lián)、網(wǎng)絡帶寬和延遲提出了更高的要求。

隨著AI大模型、超大模型的不斷發(fā)展,芯片公司相繼推出了新形態(tài)的AI加速卡來支持更高的功耗和更強大的卡間互聯(lián)能力。當前,隨著數(shù)據(jù)中心用戶對AI計算力需求的不斷攀升,全球已有上百家公司投入新型AI芯片的研發(fā)與設計,人工智能芯片發(fā)展呈現(xiàn)多元化趨勢。但各廠商采用不同技術路線,導致產業(yè)面臨硬件體系孤島和生態(tài)割裂問題,帶來算力產業(yè)發(fā)展高成本和低靈活性的問題。

“統(tǒng)一開放的產業(yè)標準能有效降低技術獲取成本,推動創(chuàng)新技術普及,為產業(yè)發(fā)展賦能提速?!崩顺毙畔I&HPC產品線高級產品經(jīng)理張政說。

據(jù)了解,以OCP為代表的開放計算項目,推出全新的、全球化的產業(yè)協(xié)作模式,通過消除技術壁壘,加快計算產業(yè)創(chuàng)新的速度。其中,OCP的OAI(開放加速器基礎設施)開放標準極大地激發(fā)了AI計算基礎設施集成的創(chuàng)新。目前,已有包括浪潮信息、Intel、燧原科技等10+系統(tǒng)和芯片廠商,通過開放、合作為市場推出10余款符合OAM標準的開放加速AI服務器,并在全球范圍內開展成功實踐,充分論證了技術可行性,構建起茁壯的生態(tài)體系。

張政介紹,早在2019年OCP剛成立OAI小組時,浪潮信息作為主導的核心成員之一,牽頭組織制定了UBB、OAM(云原生應用)等規(guī)范,此后又發(fā)布了業(yè)界首個開放加速參考系統(tǒng)MX1。浪潮信息還協(xié)同合作伙伴,共同完成了早期OAM的技術驗證和積累,并發(fā)布了首款OAM服務器,將開放加速真正快速投入到產業(yè)應用中。在產業(yè)化落地的過程中,浪潮信息積累了很多經(jīng)驗,并總結轉化從而形成《開放加速規(guī)范AI服務器設計指南》,以加速培育產業(yè)生態(tài)。

“事實上,我們也是國內最早做AI加速卡間高速互連技術的企業(yè),對于如何構建大規(guī)模的訓練系統(tǒng)、如何加速AI模型訓練,我們有豐富的經(jīng)驗。浪潮信息AI服務器在市場規(guī)模和技術方面都有著領先的優(yōu)勢?!壁w帥說。

據(jù)了解,開放加速計算的硬件架構正是為超大規(guī)模深度神經(jīng)網(wǎng)絡模型并行計算而生,天然適用于AIGC大模型訓練。然而,當前開放計算技術推向產業(yè)落地的過程中,依然存在大量的定制化工作以及現(xiàn)有OAI標準未能完全覆蓋的領域。因此,浪潮信息基于豐富的開放加速計算工程實踐和產品歷程,發(fā)布面向AIGC的指南,提出四大設計原則、全棧設計方法,旨在幫助社區(qū)成員更快更好地開發(fā)符合開放加速規(guī)范的AI加速卡,并大幅縮短與AI服務器的適配周期,為用戶提供最佳匹配應用場景的AI算力產品方案。

其中,四大設計原則為應用導向原則、多元開放原則、綠色高效原則和統(tǒng)籌設計原則?;谏鲜鲈O計原則,以提高適配部署效率、提高系統(tǒng)穩(wěn)定性、提高系統(tǒng)可用性為目標,《指南》進一步歸納總結出開放加速規(guī)范AI服務器的設計方法,即多維協(xié)同設計、全面系統(tǒng)測試、性能測評調優(yōu)。

業(yè)內人士認為,開放加速規(guī)范的AI服務器可為AI芯片創(chuàng)新提供成熟的系統(tǒng)平臺支撐,幫助AI芯片廠商聚焦于芯片創(chuàng)新研發(fā),實現(xiàn)更科學合理的產業(yè)分工,避免封閉技術生態(tài)存在的單點單線風險,推動智算產業(yè)生態(tài)健康發(fā)展;另一方面,基于開放加速工程實踐和成熟計算平臺總結的設計指南,可加速有競爭力的AI芯片的創(chuàng)新研發(fā)和落地部署,有效節(jié)省研發(fā)投入并縮短開發(fā)適配周期50%以上,為用戶提供可以用來支撐AIGC大模型訓練的多元算力解決方案,以多元算力之道破解當下AI算力供需難題。(經(jīng)濟日報記者 黃鑫)

標簽:

推薦

財富更多》

動態(tài)更多》

熱點