導讀:在 11 月底的 2024 中國信息通信大會“算力網絡算網一體創(chuàng)新發(fā)展論壇”上,中國移動研究院副院長段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產業(yè)合作伙伴,發(fā)布了“芯合”異構混合并行訓練系統(tǒng) 1.0。
12 月 3 日消息,在 11 月底的 2024 中國信息通信大會“算力網絡算網一體創(chuàng)新發(fā)展論壇”上,中國移動研究院副院長段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產業(yè)合作伙伴,發(fā)布了“芯合”異構混合并行訓練系統(tǒng) 1.0。
據(jù)介紹,“芯合”異構混合并行訓練系統(tǒng)具備基于非均勻計算任務切分 ITD(Inhomogeneous Task Distribution)算法的 3D 并行策略和基于 GDR(GPU Direct RDMA)的異構芯片高速通信兩大核心能力。
基于 ITD 算法的 3D 并行技術可通過通用混合訓練框架實現(xiàn)異構數(shù)據(jù)并行、異構流水線并行,實現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構算力上的自適應調整;
基于 GDR 的異構芯片高速通信技術可在不改變芯片原有通信接口基礎上,通過定義數(shù)據(jù)傳輸架構、流程及接口標準,屏蔽底層硬件差異,實現(xiàn)頂層訓練任務在異構算力集群上分布式通信的無感拆解。
中國移動透露,當前,系統(tǒng)已實現(xiàn)百億參數(shù)大模型在英偉達、天數(shù)智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合訓練,規(guī)??芍С秩f卡集群,訓練加速比達 95% 以上,達到“業(yè)界領先水平”,未來將在提升智能算力資源利用率及促進國產算力發(fā)展等方面發(fā)揮重要作用。
此外,中國移動攜手華為、瀚博、澎峰、海光、天數(shù)智芯等產業(yè)合作伙伴在論壇上發(fā)布了智算“芯合”算力原生基礎軟件棧 2.0。
IT之家查詢公開資料獲悉,中國移動于 2023 年研發(fā)并發(fā)布“芯合”算力原生基礎軟件棧 1.0,首次實現(xiàn)智算應用一鍵式跨芯遷移的目標,已在山東、廣西等多省市的路橋檢測、智能安防等場景試點應用,降低智算應用向國產化芯片遷移的復雜度。
“芯合”基礎軟件棧 2.0 相較于之前實現(xiàn)了三大升級:
一是能力升級,全面重構算力抽象模型,插件化靈活接入英偉達、華為、海光等 6 家 AI 芯片,拓展 ONNX、SYCL 等更多編程范式,支持泛 AI 應用的跨芯遷移。
二是性能升級,新增對標 CUDA 的 DNN、BLAS 等高性能計算庫,提供圖算融合編譯優(yōu)化能力,實現(xiàn)性能大幅提升,當前應用跨架構遷移損耗已降低至 10% 以內。
三是效率升級,構建面向智算應用的“跨架構軟件工廠”,提供統(tǒng)一開發(fā)、調試、優(yōu)化、部署、遷移全生命周期服務能力,縮短應用開發(fā)、上線時間,提升整體研發(fā)效率。
中國移動透露,當前,“芯合”算力原生基礎軟件棧 2.0 已實現(xiàn)泛 AI 應用在英偉達、英特爾、華為、瀚博、天數(shù)智芯、海光 6 家智算芯片間的一鍵式跨芯流轉遷移,源源轉換效率 > 95%,遷移性能損耗 < 10%,遷移時間 < 20s,已具備規(guī)模商用條件,未來將在提升智能算力網絡自主可控水平方面發(fā)揮重要作用。