技術(shù)
導(dǎo)讀:12 月 19 日,摩爾線程宣布,首個(gè)全國(guó)產(chǎn)千卡千億模型訓(xùn)練平臺(tái) —— 摩爾線程 KUAE 智算中心揭幕儀式在北京成功舉辦,宣告國(guó)內(nèi)首個(gè)以國(guó)產(chǎn)全功能 GPU 為底座的大規(guī)模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步發(fā)布。
12 月 19 日,摩爾線程宣布,首個(gè)全國(guó)產(chǎn)千卡千億模型訓(xùn)練平臺(tái) —— 摩爾線程 KUAE 智算中心揭幕儀式在北京成功舉辦,宣告國(guó)內(nèi)首個(gè)以國(guó)產(chǎn)全功能 GPU 為底座的大規(guī)模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步發(fā)布。
摩爾線程大模型智算加速卡 MTT S4000,采用第三代 MUSA 內(nèi)核,單卡支持 48GB 顯存和 768GB/s的顯存帶寬?;谀柧€程自研 MTLink1.0 技術(shù),MTT S4000 可以支持多卡互聯(lián),助力千億大模型的分布式計(jì)算加速。同時(shí),MTT S4000 提供先進(jìn)的圖形渲染能力、視頻編解碼能力和超高清 8K HDR 顯示能力,助力 AI 計(jì)算、圖形渲染、多媒體等綜合應(yīng)用場(chǎng)景的落地。尤為重要的是,借助摩爾線程自研 MUSIFY 開(kāi)發(fā)工具,MTT S4000 計(jì)算卡可以充分利用現(xiàn)有 CUDA 軟件生態(tài),實(shí)現(xiàn) CUDA 代碼零成本遷移到 MUSA 平臺(tái)。
官方表示,摩爾線程 KUAE 智算中心解決方案以全功能 GPU 為底座,是軟硬一體化的全棧解決方案,包括以 KUAE 計(jì)算集群為核心的基礎(chǔ)設(shè)施、KUAE Platform 集群管理平臺(tái)以及 KUAE ModelStudio 模型服務(wù),旨在以一體化交付的方式解決大規(guī)模 GPU 算力的建設(shè)和運(yùn)營(yíng)管理問(wèn)題。該方案可實(shí)現(xiàn)開(kāi)箱即用,大大降低傳統(tǒng)算力建設(shè)、應(yīng)用開(kāi)發(fā)和運(yùn)維運(yùn)營(yíng)平臺(tái)搭建的時(shí)間成本,實(shí)現(xiàn)快速投放市場(chǎng)開(kāi)展商業(yè)化運(yùn)營(yíng)。
摩爾線程 KUAE 支持包括 DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale 在內(nèi)的業(yè)界主流分布式框架,并融合了多種并行算法策略,包括數(shù)據(jù)并行、張量并行、流水線并行和 ZeRO,且針對(duì)高效通信計(jì)算并行和 Flash Attention 做了額外優(yōu)化。目前,摩爾線程支持包括 LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓(xùn)練和微調(diào)。基于摩爾線程 KUAE 千卡集群,70B 到 130B 參數(shù)的大模型訓(xùn)練,線性加速比均可達(dá)到 91%,算力利用率基本保持不變。以 2000 億訓(xùn)練數(shù)據(jù)量為例,智源研究院 700 億參數(shù) Aquila2 可在 33 天完成訓(xùn)練;1300 億參數(shù)規(guī)模的模型可在 56 天完成訓(xùn)練。此外,摩爾線程 KUAE 千卡集群支持長(zhǎng)時(shí)間連續(xù)穩(wěn)定運(yùn)行,支持?jǐn)帱c(diǎn)續(xù)訓(xùn),異步 Checkpoint 少于 2 分鐘。