英伟达微型Grace-Blackwell工作站正式上市
英伟达最小的Grace-Blackwell工作站本周终于登陆市场,距离这家GPU巨头首次在CES上以"Project Digits"为名展示这款AI迷你PC已过去大半年时间。
这款被重新命名为DGX Spark的系统,尺寸与NUC相当,搭载了Blackwell GPU,可提供最高1 petaFLOP的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。
专为AI开发者设计的硬件平台
虽然起售价约3000美元,但这款设备并非面向主流PC买家。该系统将通过OEM合作伙伴以不同品牌名称销售,且不预装Windows系统。相反,它搭载了定制版Ubuntu Linux。
Spark实际上面向AI和机器人开发者、数据科学家和机器学习研究人员,为他们提供成本较低但仍能运行高达2000亿参数模型的工作站平台。
突破性的内存架构设计
这类工作负载对内存需求极高,使得在消费级显卡上运行它们变得不切实际。虽然高端工作站显卡(如RTX Pro 6000)可配备高达96GB的GDDR7显存,但单张卡价格就超过8000美元,这还不包括平台其他组件的成本。
在发布时,DGX Spark技术上已成为某中心容量最大的工作站GPU——至少在其基于Blackwell Ultra的DGX Station亮相之前保持这一地位。
GB10芯片核心技术解析
DGX Spark的核心是GB10系统级芯片,本质上是驱动其旗舰NVL72机架系统的Grace-Blackwell超级芯片的微型版本。
GB10由两个计算芯片组成,通过某中心专有的NVLink芯片间互连技术以600GB/s的速度连接。这项技术未来还将用于将某中心的GPU与某机构未来客户端CPU进行网格连接,这是两家芯片巨头合作的一部分。
GPU芯片可提供最高1 petaFLOP的稀疏FP4性能或约31 teraFLOPS的单精度(FP32)性能——在原始性能方面与RTX 5070相当。虽然550美元的消费级显卡提供超过两倍的内存带宽,但仅配备12GB GDDR7显存,在可运行的模型和AI工作负载方面将受到很大限制。
创新的CPU架构设计
与某中心最初的Grace CPU不同,GB10的CPU芯片未使用Arm的Neoverse V2核心。该芯片是与某机构合作设计,采用20个ARMv9.2核心,其中10个是Arm的高性能X925核心,其余基于其优化能效的Cortex A725核心。
与某机构的M系列和某机构的Strix Halo SoC类似,GB10的CPU和GPU都由共享的LPDDR5x内存池供电。这种计算和内存的紧密耦合使芯片制造商能够实现比传统PC平台高出两倍以上的带宽。对于GB10,某中心宣称其内存带宽达到273GB/s。
高速网络扩展能力
Spark的一个独特之处是高速网络功能。就像某中心的数据中心平台一样,Spark的GB10配备了集成的ConnectX-7网卡,背面带有两个QSFP以太网端口。
虽然理论上这些端口可用于高速网络,但它们实际上设计用于连接两个DGX Spark系统,有效将其微调和推理能力翻倍。
在这种配置下,某中心表示用户将能够在4050亿参数的模型上以4位精度运行推理。
上市信息
来自某中心、某机构、某机构、某机构、某机构、某机构、某机构和某机构的DGX Spark系统将于10月15日开始销售。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码