導(dǎo)讀:延續(xù)以往風(fēng)格,黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣,公布多個“全球首款”。這次他帶來一系列堪稱“地表最強”的 AI 重磅新品,隨便一個精度的 AI 性能,都比上一代 A100 高出 3~6 倍。
近日,NVIDIA(英偉達)攜基于最新 Hopper 架構(gòu)的 H100 GPU 系列新品高調(diào)回歸!
英偉達創(chuàng)始人兼 CEO 黃仁勛依然穿著皮衣,不過這次他沒有出現(xiàn)在幾乎已成 GTC 大會“標配”的廚房場景中,而是在一個更具科幻感的虛擬空間。
延續(xù)以往風(fēng)格,黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣,公布多個“全球首款”。這次他帶來一系列堪稱“地表最強”的 AI 重磅新品,隨便一個精度的 AI 性能,都比上一代 A100 高出 3~6 倍。
雖然英偉達并購 Arm 的計劃剛剛告吹,但它的數(shù)據(jù)中心“三芯”總路線(GPU+DPU+CPU)依然不動搖 —— 繼去年推出其首款數(shù)據(jù)中心 CPU 后,今天,英偉達又亮出一款基于 Arm 架構(gòu)的 Grace CPU 超級芯片。
此外,黃仁勛再次派出自己的虛擬數(shù)字人化身“玩偶老黃”Toy Jensen,并跟這個表情生動的玩偶進行了一番流暢的實時問答對話。
憑借押中圖形處理和人工智能(AI)兩大賽道,英偉達已經(jīng)成為全球半導(dǎo)體市值 TOP1。截至文章發(fā)布時間,英偉達的市值超過 6600 億美元,比第二名臺積電足足多了近 1100 億美元。
下面就讓我們來看看本場 GTC 大會的完整干貨:
1、H100 GPU:采用臺積電 4N 工藝,擁有 800 億個晶體管,實現(xiàn)了首個 GPU 機密計算,相比 A100,F(xiàn)P8 性能提升 6 倍,F(xiàn)P16、TF32、FP64 性能各提升 3 倍。
2、全新 NVLink Switch 系統(tǒng):高度可擴展,支持 256 塊 H100 GPU 互連。
3、融合加速器 H100 CNX:耦合 H100 GPU 與 ConnectX-7 和以太網(wǎng)智能網(wǎng)卡,可為 I / O 密集型應(yīng)用提供更強勁的性能。
4、DGX H100:配備 8 塊 H100 GPU,總計有 6400 億個晶體管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB / s 的帶寬。
5、DGX SuperPOD:最多由 32 個 DGX H100 組成,AI 算力可達 1EFLOPS。
6、Eos 超級計算機:全球運行速度最快的 AI 超級計算機,配備 576 臺 DGX H100 系統(tǒng),F(xiàn)P8 算力達到 18EFLOPS,F(xiàn)P64 算力達到 275PFLOPS。
7、Grace CPU 超級芯片:由兩個 CPU 芯片組成,采用最新 Armv9 架構(gòu),擁有 144 個 CPU 核心和 1TB / s 的內(nèi)存帶寬,將于 2023 年上半年供貨。
8、為定制芯片集成開放 NVLink:采用先進封裝技術(shù),與英偉達芯片上的 PCIe Gen 5 相比,能源效率高 25 倍,面積效率高 90 倍。英偉達還將支持通用小芯片互連傳輸通道 UCIe 標準。
9、CUDA-X:60 多個針對 CUDA-X 的一系列庫、工具和技術(shù)的更新。
10、Riva 2.0:對話式 AI 服務(wù) Riva 全面發(fā)行,2.0 版本支持識別 7 種語言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語音。
11、Merlin 1.0:可幫助企業(yè)快速構(gòu)建、部署和擴展先進的 AI 推薦系統(tǒng)。
12、Sionna:一款用于 6G 通信研究的 AI 框架。
13、OVX 與 OVX SuperPod:面向工業(yè)數(shù)字孿生的數(shù)據(jù)中心級服務(wù)器和超級集群。
14、Spectrum-4:全球首個 400Gbps 端到端網(wǎng)絡(luò)平臺,交換吞吐量比前幾代產(chǎn)品高出 4 倍,達到 51.2Tbps。
15、Omniverse Cloud:支持協(xié)作者們隨時隨地實現(xiàn)遠程實時協(xié)同工作。
16、DRIVE Hyperion 9:汽車參考設(shè)計,擁有 14 個攝像頭、9 個雷達、3 個激光雷達和 20 個超聲傳感器,總體傳感器數(shù)量是上一代的兩倍。
17、DRIVE Map:多模態(tài)地圖引擎,包含攝像頭、激光雷達和雷達的數(shù)據(jù),同時兼顧安全性。
18、Clara HoloscanMGX:可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實時 AI 應(yīng)用的計算平臺,AI 算力可達每秒 254~610 萬億次運算。
19、Isaac for AMR:提供自主移動機器人系統(tǒng)參考設(shè)計。
20、Jetson AGX Orin 開發(fā)者套件:在邊緣實現(xiàn)服務(wù)器級的 AI 性能。
黃仁勛還介紹了英偉達創(chuàng)建的 NVIDIA AI 加速計劃,通過與 AI 生態(tài)系統(tǒng)中的開發(fā)者合作,開發(fā)工程化解決方案,以確??蛻舴判牟渴稹?/p>
01. H100 GPU:800 億晶體管、六大創(chuàng)新
每次英偉達的 GPU 新架構(gòu)都會以一位科學(xué)家的名字來命名,這次同樣如此。
新 Hopper 架構(gòu)的命名取自美國計算機科學(xué)家格蕾絲?赫柏(Grace Hopper),她是耶魯大學(xué)第一位數(shù)學(xué)女博士、世界上第三位程序員、全球首個編譯器的發(fā)明者,也是第一個發(fā)現(xiàn)“bug”的人。
▲ 格蕾絲?赫柏正在教學(xué) COBOL 編程語言
1945 年 9 月 9 日,格蕾絲使用的 Mark Ⅱ 機出現(xiàn)故障,經(jīng)過近一天的排查,她找到了故障的原因:繼電器中有一只死掉的蛾子。后來,“bug”(小蟲)和“debug”(除蟲)這兩個詞匯就作為計算機領(lǐng)域的專用詞匯流傳至今。
基于 Hopper 架構(gòu)的一系列 AI 計算新品,被冠上各種“全球首款”。按行業(yè)慣例,但凡比較 AI 算力,必會拿英偉達最新旗艦 GPU 作為衡量標準。
英偉達也不例外,先“碾壓”一下自己兩年前發(fā)布的上一代 A100 GPU。
作為全球首款基于 Hopper 架構(gòu)的 GPU,英偉達 H100 接過為加速 AI 和高性能計算(HPC)扛旗的重任,F(xiàn)P64、TF32、FP16 精度下 AI 性能都達到 A100 的 3 倍。
可以看到,NVIDIA 越來越熱衷于走稀疏化路線。過去六年,英偉達相繼研發(fā)了使用 FP32、FP16 進行訓(xùn)練的技術(shù)。此次 H100 的性能介紹又出現(xiàn)了新的 Tensor 處理格式 FP8,而 FP8 精度下的 AI 性能可達到 4PFLOPS,約為 A100 FP16 的 6 倍。
從技術(shù)進展來看,H100 有 6 項突破性創(chuàng)新:
1)先進芯片:H100 采用臺積電 4N 工藝、臺積電 CoWoS 2.5D 封裝,有 800 億個晶體管(A100 有 540 億個晶體管),搭載了 HBM3 顯存,可實現(xiàn)近 5TB / s 的外部互聯(lián)帶寬。
H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 標準的 GPU,單個 H100 可支持 40Tb / s 的 IO 帶寬,實現(xiàn) 3TB / s 的顯存帶寬。黃仁勛說,20 塊 H100 GPU 便可承托相當于全球互聯(lián)網(wǎng)的流量。
2)新 Transformer 引擎:該引擎將新的 Tensor Core 與能使用 FP8 和 FP16 數(shù)字格式的軟件結(jié)合,動態(tài)處理 Transformer 網(wǎng)絡(luò)的各個層,在不影響準確性的情況下,可將 Transformer 模型的訓(xùn)練時間從數(shù)周縮短至幾天。
3)第二代安全多實例 GPU:MIG 技術(shù)支持將單個 GPU 分為 7 個更小且完全獨立的實例,以處理不同類型的作業(yè),為每個 GPU 實例提供安全的多租戶配置。H100 能托管 7 個云租戶,而 A100 僅能托管 1 個,也就是將 MIG 的部分能力擴展了 7 倍。每個 H100 實例的性能相當于兩個完整的英偉達云推理 T4 GPU。
4)機密計算:H100 是全球首款具有機密計算功能的 GPU 加速器,能保護 AI 模型和正在處理的客戶數(shù)據(jù),可以應(yīng)用在醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí),以及共享云基礎(chǔ)設(shè)施。
5)第 4 代英偉達 NVLink:為了加速大型 AI 模型,NVLink 結(jié)合全新外接 NVLink Switch,可將 NVLink 擴展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò),最多連接多達 256 個 H100 GPU,相較于上一代采用英偉達 HDR Quantum InfiniBand 網(wǎng)絡(luò),帶寬高出 9 倍。
6)DPX 指令:Hopper 引入了一組名為 DPX 的新指令集,DPX 可加速動態(tài)編程算法,解決路徑優(yōu)化、基因組學(xué)等算法優(yōu)化問題,與 CPU 和上一代 GPU 相比,其速度提升分別可達 40 倍和 7 倍。
總體來說,H100 的這些技術(shù)優(yōu)化,將對跑深度推薦系統(tǒng)、大型 AI 語言模型、基因組學(xué)、復(fù)雜數(shù)字孿生、氣候科學(xué)等任務(wù)的效率提升非常明顯。
比如,用 H100 支持聊天機器人使用的 monolithic Transformer 語言模型 Megatron 530B,吞吐量比上一代產(chǎn)品高出 30 倍,同時能滿足實時對話式 AI 所需的次秒級延遲。
再比如用 H100 訓(xùn)練包含 3950 億個參數(shù)的混合專家模型,訓(xùn)練速度可加速高達 9 倍,訓(xùn)練時間從幾周縮短到幾天。
H100 將提供 SXM 和 PCIe 兩種規(guī)格,可滿足各種服務(wù)器設(shè)計需求。
其中 H100SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服務(wù)器主板;H100 PCIe 通過 NVLink 連接兩塊 GPU,相較 PCIe 5.0 可提供 7 倍以上的帶寬。PCIe 規(guī)格便于集成到現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設(shè)施中。
這兩種規(guī)格的電力需求都大幅增長。H100 SXM 版的散熱設(shè)計功耗(TDP)達到 700W,比 A100 的 400W 高出 75%。據(jù)黃仁勛介紹,H100 采用風(fēng)冷和液冷設(shè)計。
這款產(chǎn)品預(yù)計于今年晚些時候全面發(fā)售。阿里云、AWS、百度智能云、谷歌云、微軟 Azure、Oracle Cloud、騰訊云和火山引擎等云服務(wù)商均計劃推出基于 H100 的實例。
為了將 Hopper 的強大算力引入主流服務(wù)器,英偉達推出了全新的融合加速器 H100 CNX。它將網(wǎng)絡(luò)與 GPU 直接相連,耦合 H100 GPU 與英偉達 ConnectX-7 400Gb / s InfiniBand 和以太網(wǎng)智能網(wǎng)卡,使網(wǎng)絡(luò)數(shù)據(jù)通過 DMA 以 50GB / s 的速度直接傳輸?shù)?H100,能夠避免帶寬瓶頸,為 I / O 密集型應(yīng)用提供更強勁的性能。
02. 更強企業(yè)級 AI 系統(tǒng),全球最快 AI 超算
基于 H100,英偉達最先進的企業(yè)級 AI 基礎(chǔ)設(shè)施 DGX H100 系統(tǒng)、DGX POD、DGX SuperPOD 以及一一登場。它們將從今年第三季度開始供應(yīng)。
黃仁勛稱,在財富 10 強企業(yè)和 100 強企業(yè)中,分別有 8 家和 44 家企業(yè)使用 DGX 作為 AI 基礎(chǔ)架構(gòu)。
英偉達 DGX 系統(tǒng)現(xiàn)在包含英偉達 AI Enterprise 軟件套件,該套件新增了對裸金屬基礎(chǔ)設(shè)施的支持。DGX 客戶可使用軟件套件中的預(yù)訓(xùn)練 AI 平臺模型、工具包和框架來加快工作速度。
1、DGX H100:最先進的企業(yè)級 AI 基礎(chǔ)設(shè)施
第四代英偉達 DGX 系統(tǒng) DGX H100 是一款基于英偉達 H100 Tensor Core GPU 的 AI 平臺。
每個 DGX H100 系統(tǒng)配備 8 塊 H100 GPU,總計有 6400 億個晶體管,由 NVLink 連接,在全新的 FP8 精度下 AI 性能可達 32Petaflops,比上一代系統(tǒng)性能高 6 倍。
DGX H100 系統(tǒng)中每塊 GPU 都通過第四代 NVLink 連接,可提供 900GB / s 的帶寬,是上一代系統(tǒng)的 1.5 倍。DGX H100 的顯存帶寬可達 24TB / s。
該系統(tǒng)支持雙 x86 CPU,每個系統(tǒng)還包含 2 個英偉達 BlueField-3 DPU,用于卸載、加速和隔離高級網(wǎng)絡(luò)、存儲及安全服務(wù)。
8 個英偉達 ConnectX-7 Quantum-2 InfiniBand 網(wǎng)卡能夠提供 400GB / s 的吞吐量,可用于連接計算和存儲,這一速度比上一代系統(tǒng)提升了 1 倍。
2、DGX SuperPOD:FP8 AI 性能達 1Exaflops
DGX H100 系統(tǒng)是新一代英偉達 DGX POD 和 DGX SuperPOD 超級計算機的構(gòu)建模塊。
借助 NVLink Switch 系統(tǒng),擁有 32 個節(jié)點、256 個 GPU 的 DGX Pod,其 HBM3 顯存達 20.5TB,顯存帶寬高達 768TB / s。
“相比之下,整個互聯(lián)網(wǎng)不過只有 100TB / s?!秉S仁勛感慨道。每個 DGX 都可借助 4 端口光學(xué)收發(fā)器連接到 NVLink Switch,每個端口都有 8 個 100G-PAM4 通道,每秒能夠傳輸 100GB,32 個 NVLink 收發(fā)器連接到 1 個機架單元的 NVLink Switch 系統(tǒng)。
新一代 DGX SuperPOD 可提供 1Exaflops 的 FP8 AI 性能,比上一代產(chǎn)品性能高 6 倍,能夠運行具有數(shù)萬億參數(shù)的大型語言模型工作負載;還有 20TB 的 HBM3 顯存、192TFLOPS 的 SHARP 網(wǎng)絡(luò)計算性能。
通過采用 Quantum-2 InfiniBand 連接及 NVLink Switch 系統(tǒng),新 DGX SuperPOD 架構(gòu)在 GPU 之間移動數(shù)據(jù)的帶寬高達 70TB / s,比上一代高 11 倍。
Quantum-2 InfiniBand 交換機芯片擁有 570 億個晶體管,能提供 64 個 400Gbps 端口。多個 DGX SuperPOD 單元可組合使用。
此外,英偉達推出新的 DGX-Ready 托管服務(wù)計劃,以助力簡化 AI 部署。其 DGX Foundry 托管的開發(fā)解決方案正在全球擴展,北美、歐洲和亞洲的新增地點支持遠程訪問 DGX SuperPOD。
DGX Foundry 中包含英偉達 Base Command 軟件,該軟件能夠使客戶基于 DGX SuperPOD 基礎(chǔ)設(shè)施,輕松管理端到端 AI 開發(fā)生命周期。
3、Eos:全球運行速度最快的 AI 超算
黃仁勛還透露說,英偉達正在打造 Eos 超級計算機,并稱這是“首個 Hopper AI 工廠”,將于數(shù)月后推出。
該超算包含 18 個 DGX POD、576 臺 DGX H100 系統(tǒng),共計 4608 塊 DGX H100 GPU,預(yù)計將提供 18.4Exaflops 的 AI 算力,這比目前運行速度最快的日本富岳(Fugaku)超級計算機快 4 倍。在傳統(tǒng)科學(xué)計算方面,Eos 預(yù)計可提供 275Petaflops 的性能。
03. 由兩個 CPU 組成的超級芯片
除了 GPU 外,英偉達數(shù)據(jù)中心“三芯”戰(zhàn)略中另一大支柱 CPU 也有新進展。
今日,英偉達推出首款面向 HPC 和 AI 基礎(chǔ)設(shè)施的基于 Arm Neoverse 的數(shù)據(jù)中心專屬 CPU——Grace CPU 超級芯片。
這被黃仁勛稱作“AI 工廠的理想 CPU”。
據(jù)介紹,Grace Hopper 超級芯片模組能在 CPU 與 GPU 之間進行芯片間的直接連接,其關(guān)鍵驅(qū)動技術(shù)是內(nèi)存一致性芯片之間的 NVLink 互連,每個鏈路的速度達到 900GB / s。
Grace CPU 超級芯片也可以是由兩個 CPU 芯片組成。它們之間通過高速、低延遲的芯片到芯片互連技術(shù) NVLink-C2C 連在一起。
它基于最新的 Armv9 架構(gòu),單個 socket 擁有 144 個 CPU 核心,具備最高的單線程核心性能,支持 Arm 新一代矢量擴展。
在 SPECrate?2017_int_base 基準測試中,Grace CPU 超級芯片的模擬性能得分為 740,據(jù)英偉達實驗室使用同類編譯器估算,這一結(jié)果相比當前 DGX A100 搭載的雙 CPU 高 1.5 倍以上。
此外,Grace CPU 超級芯片可實現(xiàn)當今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的 2 倍。
其依托帶有糾錯碼的 LPDDR5x 內(nèi)存組成的創(chuàng)新的內(nèi)存子系統(tǒng),能實現(xiàn)速度和功耗的最佳平衡。LPDDR5x 內(nèi)存子系統(tǒng)提供兩倍于傳統(tǒng) DDR5 設(shè)計的帶寬,可達到 1TB / s,同時功耗也大幅降低,CPU 加內(nèi)存整體功耗僅 500 瓦。
Grace CPU 超級芯片可運行所有的英偉達計算軟件棧,結(jié)合英偉達 ConnectX-7 網(wǎng)卡,能夠靈活地配置到服務(wù)器中,或作為獨立的純 CPU 系統(tǒng),或作為 GPU 加速服務(wù)器,可以搭配 1 塊、2 塊、4 塊或 8 塊基于 Hopper 的 GPU。
也就是說,用戶只維護一套軟件棧,就能針對自身特定的工作負載做好性能優(yōu)化。
黃仁勛說,Grace 超級芯片有望明年開始供貨。
04. 為定制芯片集成開放 NVLink 將支持 UCIe 小芯片標準
我們單獨來說一下 NVLink-C2C 技術(shù)。
前面說的 Grace CPU 超級芯片系列、去年發(fā)布的 Grace Hopper 超級芯片都采用了這一技術(shù)來連接處理器芯片。
NVIDIA 超大規(guī)模計算副總裁 Ian Buck 認為:“為應(yīng)對摩爾定律發(fā)展趨緩的局面,必須開發(fā)小芯片和異構(gòu)計算?!?/p>
因此,英偉達利用其在高速互連方面的專業(yè)知識開發(fā)出統(tǒng)一、開放的 NVLink-C2C 互連技術(shù)。
該技術(shù)將支持定制裸片與英偉達 GPU、CPU、DPU、NIC 和 SoC 之間實現(xiàn)一致的互連,從而通過小芯片構(gòu)建出新型的集成產(chǎn)品,助力數(shù)據(jù)中心打造新一代的系統(tǒng)級集成。
NVLink-C2C 現(xiàn)已為半定制芯片開放,支持其與 NVIDIA 技術(shù)的集成。
通過采用先進的封裝技術(shù),英偉達 NVLink-C2C 互連鏈路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面積效率高出 90 倍,可實現(xiàn)每秒 900GB 乃至更高的一致互聯(lián)帶寬。
NVLink-C2C 支持 Arm AMBA 一致性集線器接口(AMBA CHI)協(xié)議,或 CXL 工業(yè)標準協(xié)議,可實現(xiàn)設(shè)備間的互操作性。當前英偉達和 Arm 正在密切合作,以強化 AMBA CHI 來支持與其他互連處理器完全一致且安全的加速器。
NVIDIA NVLink-C2C 依托于英偉達的 SERDES 和 LINK 設(shè)計技術(shù),可從 PCB 級集成和多芯片模組擴展到硅插入器和晶圓級連接。這可提供極高的帶寬,同時優(yōu)化能效和裸片面積效率。
除 NVLink-C2C 之外,NVIDIA 還將支持本月早些時候發(fā)布的通用小芯片互連傳輸通道 UCIe 標準。
▲ UCIe 標準
與 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 標準,也可以使用 NVLink-C2C,而后者經(jīng)過優(yōu)化,延遲更低、帶寬更高、能效更高。
05. AI 軟件:對話式 AI 服務(wù)全面發(fā)行 推出推薦系統(tǒng) AI 框架 1.0 版本
如今英偉達已經(jīng)能提供全棧 AI,除了 AI 計算硬件外,其 AI 軟件也有不少進展。
黃仁勛說,AI 已經(jīng)從根本上改變了軟件的能力以及開發(fā)軟件的方式,過去十年,英偉達加速計算在 AI 領(lǐng)域?qū)崿F(xiàn)了百萬倍的加速。
今日,英偉達發(fā)布了 60 多個針對 CUDA-X 的一系列庫、工具和技術(shù)的更新,以加速量子計算和 6G 研究、網(wǎng)絡(luò)安全、基因組學(xué)、藥物研發(fā)等領(lǐng)域的研究進展。
英偉達將使用其首臺 AI 數(shù)字孿生超級計算機 Earth-2 來應(yīng)對氣候變化挑戰(zhàn),并創(chuàng)建了 Physics-ML 模型來模擬全球天氣模式的動態(tài)變化。
英偉達還與來自加州理工學(xué)院、伯克利實驗室等高校及科研機構(gòu)的研究人員們開發(fā)了一個天氣預(yù)報 AI 模型 FourCastNet,該模型基于 10TB 的地球系統(tǒng)數(shù)據(jù)進行訓(xùn)練,首次在降水預(yù)測上達到比先進的數(shù)值模型更高的準確率,并使預(yù)測速度提高了 4~5 個數(shù)量級。以前,傳統(tǒng)的數(shù)值模擬需要一年時間,而現(xiàn)在只需幾分鐘。
NVIDIA Triton 是一款開源的、超大規(guī)模的模型推理服務(wù)器,是 AI 部署的“中央車站”,它支持 CNN、RNN、GNN、Transformer 等各種模型、各類 AI 框架及各類機器學(xué)習(xí)平臺,支持在云、本地、邊緣或嵌入式設(shè)備運行。
同時,黃仁勛宣布英偉達對話式 AI 服務(wù) Riva 全面發(fā)行,Riva 2.0 版本支持識別 7 種語言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語音,用戶可通過其 TAO 遷移學(xué)習(xí)工具包進行自定義調(diào)優(yōu)。
Maxine 是一個 AI 模型工具包,現(xiàn)已擁有 30 個先進模型,可優(yōu)化實時視頻通信的視聽效果。比如開遠程視頻會議時,Maxine 可實現(xiàn)說話者與所有參會者保持眼神交流,并能將說的語言實時切換成另一種語言,而且音色聽起來不變。
本次 GTC 發(fā)布的版本增加了用于回聲消除和音頻超分辨率的新模型。
此外,黃仁勛也宣布推出英偉達面向推薦系統(tǒng)的 AI 框架 Merlin 的 1.0 版本。
Merlin 可幫助企業(yè)快速構(gòu)建、部署和擴展先進的 AI 推薦系統(tǒng)。比如,微信用 Merlin 將短視頻推薦延遲縮短為原來的 1/4,并將吞吐量提升了 10 倍。從 CPU 遷移至 GPU,騰訊在該業(yè)務(wù)上的成本減少了 1/2。
在醫(yī)療健康領(lǐng)域,黃仁勛談道,過去幾年,AI 藥研初創(chuàng)公司獲得了超 400 億美元的投資,數(shù)字生物學(xué)革命的條件已經(jīng)成熟,他稱這將是“NVIDIA AI 迄今為止最偉大的使命”。
6G 標準于 2026 年左右問世,一些相關(guān)基礎(chǔ)技術(shù)逐漸成形。對此,黃仁勛宣布推出了一款用于 6G 通信研究的 AI 框架 Sionna。
06. Omniverse:首推數(shù)字孿生 專用服務(wù)器和超級集群
黃仁勛認為,第一波 AI 學(xué)習(xí)是感知和推理,下一波 AI 的發(fā)展方向是機器人,也就是使用 AI 規(guī)劃行動。英偉達 Omniverse 平臺也正成為制造機器人軟件時必不可少的工具。
作為虛擬世界的仿真引擎,Omniverse 平臺能遵循物理學(xué)定律,構(gòu)建一個趨真的數(shù)字世界,可以應(yīng)用于使用不同工具的設(shè)計師之間的遠程協(xié)作,以及工業(yè)數(shù)字孿生。
黃仁勛認為,工業(yè)數(shù)字孿生需要一種專門構(gòu)建的新型計算機,因此英偉達打造了面向工業(yè)數(shù)字孿生的 OVX 服務(wù)器和 OVX SuperPOD 超級集群。
OVX 是首款 Omniverse 計算系統(tǒng),由 8 個英偉達 A40 RTX GPU、3 個 ConnectX-6 200Gbps 網(wǎng)卡(NIC)和 2 個英特爾至強 Ice Lake CPU 組成。
32 臺 OVX 服務(wù)器可構(gòu)成 OVX SuperPOD 超級集群,實現(xiàn)這一連接的關(guān)鍵設(shè)施是英偉達今日新推出的 Spectrum-4 以太網(wǎng)平臺。
據(jù)悉,這是全球首個 400Gbps 端到端網(wǎng)絡(luò)平臺,其交換吞吐量比前幾代產(chǎn)品高出 4 倍,聚合 ASIC 帶寬達到 51.2Tbps,支持 128 個 400GbE 端口。
Spectrum-4 實現(xiàn)了納秒級計時精度,相比典型數(shù)據(jù)中心毫秒級抖動提升了 5~6 個數(shù)量級。這款交換機還能加速、簡化和保護網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比,其每個端口的帶寬提高了 2 倍,交換機數(shù)量減少到 1/4,功耗降低了 40%。
該平臺由英偉達 Spectrum-4 交換機系列、ConnectX-7 智能網(wǎng)卡、BlueField-3 DPU 和 DOCA 數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成,可提高 AI 應(yīng)用、數(shù)字孿生和云基礎(chǔ)架構(gòu)的性能和可擴展性,大幅加速大規(guī)模云原生應(yīng)用。
Spectrum-4 ASIC 和 SN5000 交換機系列基于 4nm 工藝,有 1000 億個晶體管,并經(jīng)過簡化的收發(fā)器設(shè)計,實現(xiàn)領(lǐng)先的能效和總擁有成本。
Spectrum-4 可在所有端口之間公平分配帶寬,支持自適應(yīng)路由選擇和增強擁塞控制機制,能顯著提升數(shù)據(jù)中心的應(yīng)用速度。
Spectrum-4 ASIC 具有 12.8Tbp 加密帶寬和領(lǐng)先的安全功能,例如支持 MACsec 和 VXLANsec,并通過硬件信任根將安全啟動作為默認設(shè)置,幫助確保數(shù)據(jù)流和網(wǎng)絡(luò)管理的安全性和完整性。
現(xiàn)在各大計算機制造商紛紛推出 OVX 服務(wù)器,對于想在 OVX 試用 Omniverse 的客戶,英偉達在全球多地提供 LaunchPad 計劃,第一代 OVX 正由英偉達和早期客戶運行,第二代 OVX 正被構(gòu)建中。Spectrum-4 的樣機將在今年第四季度末發(fā)布。
隨后,曾在往屆 GTC 大會展示過的黃仁勛虛擬化身“玩偶老黃”Toy Jensen 再度現(xiàn)身。
它不是錄像,而能做到完全實時地進行眼神交流與對話。黃仁勛現(xiàn)場問它“什么是合成生物學(xué)”、“你是如何制作出來的”等問題,它都對答如流。
使用英偉達 Omniverse Avatar 框架,企業(yè)就能快速構(gòu)建和部署像 Toy Jensen 這樣的虛擬形象,從模仿聲音到細微的頭部及身體運動,乃至高保真度的形象塑造,都讓虛擬人更加靈動。
最后,得益于 Riva 中的最新對話式 AI 技術(shù)和超大語言模型 Megatron 530B NLP,虛擬人可以聽懂你問的問題,也能跟你實時聊天互動。
在此基礎(chǔ)上,英偉達宣布將推出 Omniverse Cloud。通過 Omniverse Cloud 連接,協(xié)作者們使用英偉達 RTX PC、筆記本電腦和工作站,均可實現(xiàn)遠程實時協(xié)同工作。
用戶如果沒有 RTX 計算機,只需點擊一下,即可從 GeForce Now 上啟動 Omniverse。
07. 汽車:預(yù)告 DRIVE Hyperion9 推出多模態(tài)地圖引擎
Omniverse 平臺是整個工作流程的核心,DRIVE 平臺則相當于 AI 司機。
黃仁勛宣布下一代 DRIVE Hyperion 9 將從 2026 年起搭載到汽車中,它將擁有 14 個攝像頭、9 個雷達、3 個激光雷達和 20 個超聲傳感器,總體傳感器數(shù)量將是 Hyperion 8 的兩倍。
此外,英偉達推出了一種多模態(tài)地圖引擎 NVIDIA DRIVE Map,包含攝像頭、激光雷達和雷達的數(shù)據(jù),同時兼顧安全性。
DRIVE Map 有兩個地圖引擎,真值測繪地圖引擎和眾包車隊地圖引擎。黃仁勛談道,到 2024 年,他們預(yù)計繪制并創(chuàng)建北美、西歐和亞洲所有主要公路的數(shù)字孿生,總長度約為 50 萬公里。
“我們正在構(gòu)建地球級別的自動駕駛車隊數(shù)字孿生。”黃仁勛說。
合作方面,全球第二大電動汽車制造商比亞迪將在 2023 年上半年開始投產(chǎn)的汽車中搭載 DRIVE Orin 計算平臺。自動駕駛獨角獸企業(yè)元戎啟行、中國自動駕駛創(chuàng)企云驥智行也宣布將在其 L4 級自動駕駛車規(guī)級量產(chǎn)方案中搭載 NVIDIA DRIVE Orin SoC 芯片。
美國電動汽車公司 Lucid Motors、中國 L4 級自動駕駛科技公司文遠知行、中國新型電動車公司悠跑科技均宣布將應(yīng)用英偉達 DRIVE Hyperion 自動駕駛汽車平臺。
08. 機器人平臺:從醫(yī)療設(shè)備到自主移動機器人
黃仁勛認為下一波 AI 浪潮是機器人,英偉達正在構(gòu)建多個機器人平臺,包括用于自動駕駛汽車的 DRIVE、用于操縱和控制系統(tǒng)的 Isaac、用于自主式基礎(chǔ)架構(gòu)的 Metropolis、用于醫(yī)療設(shè)備的 Holoscan 等。
他將機器人系統(tǒng)的工作流程簡化為真值數(shù)據(jù)生成、AI 模型訓(xùn)練、Omniverse 數(shù)字孿生、機器人技術(shù)棧四大支柱。
Clara Holoscan MGX 是一個開放可擴展的機器人平臺,其設(shè)計符合 IEC-62304 醫(yī)療級規(guī)格,核心計算機為 Jetson AGX Orin 和 ConnectX-7 智能網(wǎng)卡,并可選配 NVIDIA RTX A6000 GPU。
該平臺 AI 算力可達每秒 254~610 萬億次運算,目前向早期體驗客戶開放,正式上市時間是 5 月,并將于 2023 年第一季度完成醫(yī)療級準備。
Metropolis 平臺的下載量已經(jīng)達到 30 萬次,擁有 1000 多個生態(tài)系統(tǒng)合作伙伴,并在超過 100 萬個設(shè)施中運營。
機器人發(fā)展最快的領(lǐng)域之一是自主移動機器人(AMR),它本質(zhì)上是室內(nèi)無人駕駛,速度偏低但環(huán)境高度非結(jié)構(gòu)化。
今天,英偉達推出 Isaac for AMR,它有四大核心:用于真值生成的 NVIDIA DeepMap、用于訓(xùn)練模型的 NVIDIA AI、搭載 Orin 的 AMR 機器人參考設(shè)計、Isaac 機器人技術(shù)堆棧中的新 Gem 及基于 Omniverse 的新版 Isaac Sim,每個都單獨可用且完全開放。
與 DRIVE Hyperion 類似,Isaac Nova 是一個 AMR 機器人系統(tǒng)參考設(shè)計,整個 Isaac 堆棧都基于此構(gòu)建。Nova 有 2 個攝像頭、2 個激光雷達、8 個超聲波雷達和 4 個魚眼攝像頭。
英偉達還宣布推出 Jetson Orin 開發(fā)者套件,以在邊緣實現(xiàn)服務(wù)器級的 AI 性能。
Nova AMR 將于第二季度上市,它將配備英偉達新的 DeepMap 雷達制圖系統(tǒng),可以掃描和重建環(huán)境,以進行路線規(guī)劃和數(shù)字孿生仿真。
09. 結(jié)語:AI 開發(fā)者的前沿技術(shù)盛宴
這些年來,英偉達 GTC 大會已經(jīng)成為一場面向 AI、HPC、科學(xué)計算、數(shù)字孿生及自動駕駛等諸多前沿領(lǐng)域的技術(shù)盛宴。
在這場盛宴中,我們不僅看到技術(shù)突破如果改變各行各業(yè)的生產(chǎn)效率和工作方式,也看到英偉達圍繞計算世界的最新布局。
隨著新一代大規(guī)模云技術(shù)的出現(xiàn),數(shù)據(jù)中心架構(gòu)有待轉(zhuǎn)型。在穩(wěn)擁 GPU 基本盤的基礎(chǔ)之上,英偉達的角色正從圖形顯示和加速計算“偏科學(xué)霸”,轉(zhuǎn)向圍繞數(shù)據(jù)中心三大芯片支柱全面發(fā)展。
黃仁勛認為,數(shù)據(jù)中心正在轉(zhuǎn)變成“AI 工廠”,它通過處理海量的數(shù)據(jù)來實現(xiàn)智能,而今日推出的 H100 便是實現(xiàn)企業(yè) AI 業(yè)務(wù)加速的引擎。
H100 的多項技術(shù)創(chuàng)新,數(shù)據(jù)中心專屬 Grace CPU 超級芯片的特殊設(shè)計,以及 AI 和 Omniverse 平臺的持續(xù)升級,進一步擴大了英偉達在加速 AI 訓(xùn)練及推理領(lǐng)域的領(lǐng)導(dǎo)地位。
在為期 4 天的英偉達 GTC 大會上,我們還將看到更多不同細分領(lǐng)域的專家,分享他們?nèi)绾卫?AI 和加速計算領(lǐng)域的技術(shù)創(chuàng)新,來開展各類開創(chuàng)性的研究或解決正面臨的挑戰(zhàn)。