NVIDIA RTX PRO 6000 工作站 GPU 深度评测:Blackwell 架构+ 96 GB 显存无可替代!
在NVIDIA GTC 2025上,该公司宣布推出NVIDIA RTX Pro 6000 Blackwell系列。这款新的RTX Pro 6000 Blackwell系列有三种变体,可以跨越桌面工作站到服务器应用程序。RTX PRO 6000 工作站显卡专为创作者、工程师和 AI 开发者设计,他们需要在塔式或台式机箱内获得最大计算性能和显存。而 RTX PRO 6000 Blackwell 服务器
在NVIDIA GTC 2025上,该公司宣布推出NVIDIA RTX Pro 6000 Blackwell系列。这款新的RTX Pro 6000 Blackwell系列有三种变体,可以跨越桌面工作站到服务器应用程序。RTX PRO 6000 工作站显卡专为创作者、工程师和 AI 开发者设计,他们需要在塔式或台式机箱内获得最大计算性能和显存。而 RTX PRO 6000 Blackwell 服务器版则专为机架服务器和无头推理或渲染节点设计。本次评测将聚焦于工作站版本。
RTX PRO 6000 售价 8500 美元,它将完整的 GB202 GPU 核心带到了桌面端,拥有 24064 个 CUDA 核心、752 个第五代 Tensor Core、188 个第四代 RT Core 以及 96 GB 带 ECC 的 GDDR7 显存。消费级显卡无法比拟的显存容量、专业级驱动程序以及双槽外形,无需特殊供电或散热要求即可适配真正的工作站,其吸引力显而易见。
NVIDIA 将这款 GPU 定位用于混合工作流,包括长上下文本地 LLM 推理、大场景渲染、复杂模拟和多 GPU 研究平台。其实用设计也值得关注:该卡采用标准的 PCIe 5.0 x16 接口,提供四个 DisplayPort 2.1b 输出用于高分辨率、高刷新率可视化,并具备 600 W 可配置 TDP,允许系统集成商根据散热、噪音或密度进行优化。
今天的目标是在实测中评估这款工作站版本在 AI、渲染和通用计算方面的性能,并量化 96 GB 显存池对单个桌面节点能力的提升。
NVIDIA RTX PRO 6000 工作站版 vs. 服务器版
RTX PRO 6000 的不同版本都基于相同的 Blackwell GB202,原始计算能力看起来都差不多。区别在于它们的设计用途和部署环境。本次测试的工作站卡是一个独立的、主动散热、双槽厚的板卡,配备四个 DisplayPort 2.1b 输出和工作室级驱动程序。它可插入塔式或桌边工作站,驱动本地显示器,并运行 ISV 认证的 DCC 和 CAD 应用,同时支持 CUDA、TensorRT 和 cuDNN。如果工作流混合了交互式视口操作、本地可视化和本地 AI 计算,那么这款卡是在单一机箱内完成所有任务、并保持可预测的噪音和散热表现的选择。
RTX PRO 6000 Blackwell 服务器版更适用于机架式服务器场景,采用前后通风设计和远程管理功能。它没有主动显示输出,因为任务通过网络调度,结果也远程消耗。其固件、功耗和散热配置文件针对调度程序下的 24x7 持续运行而优化,通常与 NVIDIA AI Enterprise、容器编排和虚拟机直通配对使用。
简单点说,当创作者和工程师需要本地查看和操作工作,同时运行大型推理或模拟仿真任务时,工作站型号是正确选择。而当需要在数据中心通过队列扩展相同节点,且每个瓦特、线缆和风道都必须符合 OEM 服务计划时,服务器版则更为合适。
NVIDIA RTX PRO 6000 规格
下面是NVIDIA RTX PRO 6000 与 RTX 5090 以及上一代 Ada Lovelace 架构 RTX 4090 的规格对比。
构造与设计
RTX PRO 6000 工作站 GPU 延续了 NVIDIA 简洁实用的设计风格,采用工业哑光黑 finish 和双轴流风扇布局,针对工作站环境优化。每个风扇都可将气流推过全长的 3D 均热板,有助于在持续负载下保持热平衡。其尺寸为 304 mm × 137 mm × 40 mm, 适配双槽配置。
沿着顶部边缘,PRO 6000 配备了一个 16-pin 电源接口,为 96 GB GDDR7 显存和完整的 Blackwell 2.0 架构提供所需电流。其制造质量感觉高级且坚固,铝制外壳可有效引导空气穿过鳍片堆。NVIDIA 低调的品牌标识符合专业美学,没有 RGB 或游戏元素,强调在热要求苛刻的工作站机箱中的可靠性和性能。
在 I/O 方面,NVIDIA 提供了四个 DisplayPort 2.1b 输出,确保兼容多显示器 8K 设置、色彩精准的 HDR 工作流和高级渲染环境。使用 DisplayPort 2.1b 而非 HDMI 反映了其专业定位,具有增强的高刷新和高分辨率显示器带宽。
性能测试
为了评估 NVIDIA RTX PRO 6000的性能,我们将其与 NVIDIA 的旗舰消费级对手 RTX 5090 公版和 RTX 4090 公版进行了直接比较。测试混合了专业和 AI 驱动的工作负载,以突出原始计算能力和实际应用性能。基准测试包括 UL Procyon AI 文本生成、UL Procyon AI 图像生成、LuxMark、Geekbench 6 和 V-Ray,提供了对渲染、推理和生产效率的均衡概览。
除了这些标准工作负载,我们还运行了针对性测试,以展示 RTX PRO 6000 的 96 GB GDDR7 显存在处理大模型、高分辨率数据集和专业可视化工作负载时的优势,这些场景下显存容量和持续吞吐量非常重要。
测试平台
为了充分发挥新款 NVIDIA RTX PRO 6000 的优势,我们使用了 AMD ThreadRipper 平台。该系统配置了 64 核 CPU 和水冷循环,拥有充足的底层 CPU 性能,确保 GPU 性能不受制约。完整系统配置如下:
● 赋创机箱+主板
● CPU: AMD Ryzen Threadripper 7980X 64-Core
● 内存: 32GB DDR5 4800MT/s
● 存储: 2TB Samsung 980 Pro
● 操作系统: Windows 11 Pro for Workstations
UL Procyon: AI 文本生成
Procyon AI 文本生成基准测试通过提供简洁一致的评估方法来简化 AI LLM 性能测试。它允许跨多个 LLM 模型进行重复测试,同时最小化大模型尺寸和可变因素的复杂性。该测试在与 AI 硬件领导者合作开发,优化了本地 AI 加速器的使用,以实现更可靠和高效的性能评估。下方测量的结果是使用 TensorRT 测试的。
在所有四个模型测试中,NVIDIA RTX PRO 6000 始终领先。从 Phi 开始,PRO 6000 获得了 6,775 的总分,超过了 RTX 5090 的 5,749、RTX 4090 的 4,958 和 RTX 6000 Ada 的 4,508。其更快的 Token 生成速率(325.9 tok/s)和更低的首 Token 延迟(第一个令牌为0.182秒)突显了其在实时文本生成和基于聊天的 AI 工作负载中的响应能力。
这一趋势在 Mistral 中得以延续,PRO 6000 得分为 7,346,保持了相对于 5090、4090 和 6000 Ada 的显著优势。其 271.8 tok/s 的吞吐量展示了其更大的 96 GB 显存池和针对高上下文推理优化的工作站调优的优势。
在 Llama3 中,PRO 6000 以 6,501 的分数保持领先,而 RTX 5090 为 6,104,RTX 4090 为 4,849,RTX 6000 Ada 为 4,026。这凸显了 NVIDIA Blackwell 架构的一致性,随着Transformer工作负载的复杂性和上下文长度的扩展,PRO 6000保持了性能优势。
最后,在侧重于长上下文推理和持续性能的 Llama2 中,PRO 6000 取得了 8,008 分,而 5090、4090 和 6000 Ada 分别落后于 6,591、5,013 和 3,957。即使序列长度和推理时间增加,PRO 6000 在速度和稳定性方面仍保持明显的优势,完成运行速度更快,吞吐量比任何其他GPU测试更流畅。
UL Procyon: AI 图像生成
Procyon AI 图像生成基准测试提供了一种一致且准确的方法,用于测量从低功耗 NPU 到高端 GPU 等各种硬件的 AI 推理性能。它包括三个测试:面向高端 GPU 的 Stable Diffusion XL (FP16)、面向中等性能 GPU 的 Stable Diffusion 1.5 (FP16) 和面向低功耗设备的 Stable Diffusion 1.5 (INT8)。基准测试为每个系统使用最佳推理引擎,确保公平和可比的结果。
从 Stable Diffusion 1.5 (FP16) 开始,NVIDIA RTX PRO 6000 取得了压倒性的 8,869 总分,表现优于 RTX 5090 的 8,193、RTX 4090 的 5,260 和 RTX 6000 Ada 的 4,230。PRO 6000 在 11.27 秒内完成图像生成,平均每张图像 0.705 秒,使其成为此测试中最快的。这展示了其工作站优化的调优和 96 GB GDDR7 显存如何在不影响效率的情况下实现持续的高精度输出。
在衡量轻量级量化推理性能的 Stable Diffusion 1.5 (INT8) 测试中,所有 GPU 表现接近。PRO 6000 得分 79,064,与 RTX 5090 的 79,272 几乎相同,同时领先于 RTX 4090 的 62,160 和 RTX 6000 Ada 的 55,901。由于 INT8 工作负载对显存带宽和容量的依赖较少,差异很小,但 PRO 6000 保持了一致的结果,平均每张图像生成时间为 0.395 秒。
Stable Diffusion XL (FP16) 测试通过更长、要求更高的推理运行来考验 GPU,从而对内存和持续计算吞吐量产生压力。在这里,PRO 6000 取得了 6,991 的总分,略低于 RTX 5090 的 7,179,但远高于 RTX 4090 的 5,025 和 RTX 6000 Ada 的 3,043。它保持了 85.8 秒的总渲染时间,即每张图像 5.36 秒,表明 PRO 6000 能高效处理长时间的生成工作负载且没有降速。
Blender 4.4
Blender 是一款开源 3D 建模应用程序。这个基准测试使用 Blender Benchmark 实用程序运行。分数以每分钟样本数衡量,数值越高表示性能越好。
在所有三个场景中,NVIDIA RTX PRO 6000 都位居榜首,展示了其 Blackwell 架构和扩展显存容量的优势。在 Monster 场景中,PRO 6000 得分 7,870.17 samples per minute,领先于 RTX 5090 的 7,421.50,而 RTX 4090 和 RTX 6000 Ada 分别为 5,733.97 和 5,632.60。
在 Junkshop 场景中,PRO 6000 继续领先,达到 4,158.91 samples per minute,而 RTX 5090 为 3,980.15,RTX 4090 为 2,827.83,RTX 6000 Ada 为 2,663.77。最后,在通常对着色和显存效率都构成压力的 Classroom 场景中,PRO 6000 达到 4,041.11 samples per minute,再次领先于 RTX 5090 的 3,732.63,并显著优于 RTX 4090 和 RTX 6000 Ada。
Luxmark
Luxmark 是一个 GPU 基准测试,利用开源光线追踪渲染器 LuxRender 来评估系统处理高度细节化 3D 场景的性能。该基准测试对于评估服务器和工作站在图形渲染方面的能力尤其相关,尤其是在视觉特效和建筑可视化等需要精确光线模拟的应用中。
在 Food 场景测试中,NVIDIA RTX PRO 6000 以 24,287 的分数领先,略微超过 RTX 5090 的 23,141,而 RTX 4090 和 RTX 6000 Ada 分别为 17,171 和 14,873。这展示了 PRO 6000 如何在高度细节化的几何体和光照工作负载中保持平滑的光线追踪性能,而没有稳定性损失或热节流。
在要求更高、考验大规模几何体和复杂全局光照的 Hall 场景中,PRO 6000 再次以 52,588 的成绩获得最高结果,略微领先于 RTX 5090 的 51,725,并远高于 RTX 4090 的 38,887 和 RTX 6000 Ada 的 32,132。
Geekbench 6
Geekbench 6 是一个跨平台基准测试,用于测量整体系统性能。Geekbench Browser 允许将任何系统与之进行比较。
在此测试中,NVIDIA RTX PRO 6000 的 GPU OpenCL 得分为 384,158,超过了 RTX 5090 的 374,807、RTX 4090 的 333,384 和 RTX 6000 Ada 的 336,882。PRO 6000 的较高分数反映了其优化的工作站设计、增强的显存带宽和专业驱动程序堆栈,这些共同确保了在各种计算密集型工作负载下的持续性能。
V-Ray
V-Ray Benchmark 使用先进的 V-Ray 6 引擎测量 CPU、NVIDIA GPU 或两者的渲染性能。它利用快速测试和简单的评分系统,使用户能够评估和比较其系统的渲染能力。对于寻求高效性能洞察的专业人士来说,这是一个必不可少的工具。
在我们的测试中,NVIDIA RTX PRO 6000 得分为 12,128 vpaths,介于领先的 RTX 5090 和得分 10,847 的 RTX 4090 之间。RTX 6000 Ada 略微落后,为 10,766。虽然 RTX 5090 在此 GPU 密集型渲染测试中保持微弱领先,但 PRO 6000 表现出强大而稳定的性能,强化了其工作站导向的调优和在满负载渲染下的持续效率。
LM Studio 多模型推理测试
在本轮测试中,我们使用 LM Studio 评估 NVIDIA RTX PRO 6000 在一系列流行大语言模型上的表现,包括 GPT-OSS 120B、Gemma 3 (4B, 12B, 27B)、Llama 3.1 (8B, 70B) 和 Llama 3.3 70B。每个模型都使用相同的提示词,此测试的主要关注点是 Tokens per Second(吞吐量)和 Total Time(完成时长),这两者共同突出了 RTX PRO 6000 在相同生成条件下处理不同模型大小和复杂度的效率。
在 LM Studio 推理测试中,NVIDIA RTX PRO 6000 在各种型号尺寸上都表现出了出色的性能和可扩展性,从较小的4B参数型号到大规模的120B级配置。
此测试的亮点是 OpenAI GPT-OSS 120B,RTX PRO 6000 产生了 163.1 tokens per second,并在 9.54 秒内完成了 500 字的生成。这一结果非常突出,因为像 RTX 5090 这样的显卡无法加载或运行 120B 模型,甚至常常无法处理 70B 模型。PRO 6000 的 96 GB GDDR7 显存使其能够在本地处理这些巨大模型,使其在工作站 GPU 中具有独特的能力。
对于较小的模型,Gemma 3.4 B 实现了最高的吞吐量,以 226.7 tokens per second 的速度在 3.51 秒内完成任务。Llama 3.1 8B Instruct 紧随其后,达到 197.1 tokens per second,总时间为 4.17 秒。这些运行显示了 PRO 6000 在中等推理工作负载中的强大效率和快速响应能力。
在更高端的Llama 3.1 70B Instruct 和 Llama 3.3 70B 模型中,平均约为 31.8 tokens per second,总生成时间分别为 27.2 秒和 25.3 秒,尽管模型尺寸巨大,但仍显示出一致的输出。
总体而言,RTX PRO 6000 在运行大规模模型时提供了出色的稳定性、吞吐量和能力。其 96 GB 显存容量使其能够处理超出消费级 GPU 限制的工作负载,使其成为需要为高级 AI 和生成式模型开发提供可靠本地性能的开发人员、研究人员和专业人员的绝佳选择。
NVIDIA RTX PRO 6000 功耗
为了评估 AI 工作负载的真实能效,我们使用了 UL Procyon AI 图像生成基准测试,特别是 Stable Diffusion XL FP16 测试。该测试重点关注第二个和最后一个生成图像之间的间隔,捕获完成间隔的时间、峰值和持续功耗以及完成后的系统空闲功率。
在我们的测试期间,RTX PRO 6000 在持续负载下保持平均系统功耗为 918.5 W,峰值达到 1,036.3 W,工作负载完成后空闲功耗稳定在 152.3 W。完整测试间隔持续 5.3 秒,消耗了 1.35 Wh 的总能量。这些结果显示了工作站级 GPU 出色的功率性能效率,在保持高输出的同时,将功耗控制在良好范围内。
与其他 GPU 相比,RTX PRO 6000 在总能耗上与 RTX 4090 非常接近,同时保持了更快的完成时间,并且在能效和速度上都显著优于 RTX 6000 Ada。有趣的是,共享 GB202 芯片的新 Blackwell 显卡在此工作负载下表现出非常相似的能效特性,总能耗的微小差异很可能源于 PRO 6000 更高的 TDP。
结论
总体而言,NVIDIA RTX PRO 6000 是目前可用于专业工作流的能力最强的工作站 GPU,在桌边外形中提供了数据中心级的性能。其测试时零售价约为 8,500 美元,目标用户是那些在生产工作中需要可靠性、高计算密度和巨大 ECC 显存池的团队。凭借 24,064 个 CUDA 核心、752 个 Tensor Core、96 GB GDDR7 ECC 显存和 Blackwell 架构,它能够处理超出 GeForce RTX 5090 或 4090 等消费级显卡实际限制的工作负载。个别基准测试可能会显示消费者卡在原始速度方面领先,但从容量,稳定性,驱动程序和ISV支持的整体来看,RTX PRO 6000更适合专业用途。
对于 AI 和 ML 而言,96 GB 显存池是关键要点。它支持本地长上下文推理和非常大的模型 checkpoint,通过运行 70B 到 120B 级别的模型并保持强劲的 tokens per second 证明了这一点。渲染和模拟也受益于更大的 L2 缓存和显存带宽,在 Blender、V-Ray 和 LuxMark 中,在 extended loads 下提供了可预测的、持续的性能。
该卡适配真正的工作站:采用双槽设计,具有 PCIe 5.0 x16 接口、四个 DisplayPort 2.1b 输出和一个 16-pin 电源输入。需要规划高质量的 PSU 和机箱风道来支持 600W 的板卡功耗。多 GPU 配置也很简单,OEM 和 ISV 支持在 AI、渲染和计算堆栈中配置 2 到 8 个 GPU。
如果您的运行任务涉及长上下文 LLM、超大规模场景或单节点上的高精度模拟仿真,那么RTX PRO 6000是最合适的,RTX PRO 6000的容量和一致性是其他卡无法比拟的。
更多推荐
所有评论(0)