亚马逊云技术已经推出了基于NVIDIA Blackwell的最新
发布时间:2025-07-14 10:00
Amazon Cloud Technology中计算和机器学习服务副总裁David Brown正在考虑一个可以探索许多方法来解决复杂问题的系统,依靠理解大量数据 - 从源代码到源代码的Scientific -Scientific集合,并愿意排除。闪电快速推理并不是将来的想法,而是Aizon Cloud Technology的Aizon Cloud Technology客户环境中发生的事情。目前,我们的客户正在许多领域(例如药物研发,业务搜索,软件开发等)建立AI系统。AI系统的大小很棒,这只是开始。为了加速新兴的AI技术,例如Undernen Modelsce和AI代理商,Amazon Cloud Technology宣布,由NVIDIA GRAINDIA BLACKWERS SUPERCHIPS加速加速的Amazon EC2 P6E-GB200 Ultraserver。 P6E-GB200 Ultracer是为Traini设计的最大,最复杂的AI模型的NG和扩展。今年早些时候,亚马逊云技术(Amazon Cloud Technology)根据NVIDIA Blackwell GPU推出了Amazon EC2 P6-B200机会,支持了多样化的AI范围和高性能计算工作负载。基于Amazon EC2 P6E-GB200 Ultraserver和Amazon P6-B200机会,基于GPU大型,安全和可靠的基础架构中亚马逊云技术的丰富经验,将帮助客户继续推动AI技术界限。确定AI工作负载的不断增长的Amazon EC2 P6E-GB200 Ultraserver是迄今为止Amazon Cloud最强大的GPU产品,配备了高达72个NVIDIA Blackwell GPU,该产品与第五代NVIDIA NVIDIA NVLINK交织在一起,并作为单个单位运行。每个Ultraserver都可以提供高达360 PETAFLOPS的高密度FP8计算能力,以及与P5EN相关的13.4TB高带宽视频存储器(HBM3E),例如,单个NVLink域中的计算强度在折痕超过20次,记忆力增加了11倍以上。 Amazon EC2 P6E-GB200 Ultracerver支持第四代弹性适配器(EFAV4)网络带宽高达28.8 TBP。亚马逊EC2 P6-B200的机会为广泛的AI场景提供了灵活的选择。每个示例配备由NVLink互连的8个NVIDIA Blackwell GPU,具有1.4TB的高存储器带宽和UP到EFAV4网络带宽的3.2 TBP,以及第五代Intel Xeon可伸缩处理器。例如,与Azon EC2 P5EN相比,在AMK中,例如,亚马逊EC2 P6-B200是GPU计算功率的2.25倍,视频内存容量为1.27倍,视频记忆带宽是1.6倍。如何在Amazon EC2 P6E-GB200与亚马逊EC2 P6-B200之间进行选择?关键取决于工作量的特定需求和客户体系结构的偏好:基于亚马逊亚马逊云技术的基本好处的持续变化Troducuce troduce不仅是技术成功,而且是基础架构的全面变化。基于多年在计算,网络,操作和维护以及服务 - 主机服务领域的多年培养和技能,其中包括NVIDIA Blackwell的Amazon Cloud Technology在其中运行,同时满足了亚马逊云技术可用的高可靠性和性能客户。机遇的强大安全性和稳定性。一再提到客户选择将GPU工作负载部署到亚马逊云技术的一些原因:他们在云中的安全性和稳定性的示例中极大地认识到亚马逊云技术的重点。亚马逊硝基系统的专用硬件,软件和固件具有强制性的分离机制,以确保包括Amazon Cloud Technology员工在内的任何人都无法访问敏感的AI负载和数据。除了安全性,亚马逊硝基系统最初更改了维护和优化基础架构的方法。该系统负责处理当时的网络,存储和其他I/O操作,并支持固件升级,随着系统继续运行而调节弱点和性能。无需停机时间更新的能力称为“实时更新”,对于当前具有很高连续性要求的AI生产环境尤其重要。任何破坏都可能对业务发展产生严重影响。 Amazon EC2 P6E-GB200和Amazon EC2 P6-B200都配备了六代硝基系统。但是,这种安全性和稳定性的好处并不是Nitro的现代架构首次继续保护和优化Amazon EC2上的工作负载。自2017年以来,Ai I Infrastructure的大型挑战环境中可靠的性能保证不仅是为了实现Super Sukand,而且如何继续确保在此规模上的性能和可靠性。 ThE Amazon EC2 P6E-GB200 Ultraserver已部署到Amazon EC2 UlterCluster的第三代,该群体创建了一个涵盖Amazon Cloud Technology最大数据中心的单个体系结构。第三代超集团可以将电力消耗降低多达40%,而接线要求则超过80%,这不仅可以显着提高能源效率,而且有效地降低了潜在的故障点。 To provide a consistent performance in hyperscale deployment, Amazon cloud technology has adopted the elastic fabric adapter (EFA) and the measured and reliable association of DatagramsCalable reliable Datagram, this protocol can be smart traffic route between many network paths, and keep the system on the network, and keep the system on the network, and keep the system on the net network, and keep the system on the net network, and keep the system on the network, and keep the system in the即使存在交通拥堵或失败,网络的设备也稳定。亚马逊的云技术继续优化第四代EFA的性能。与使用EFAV3相比,配备了EFAV4的Amazon EC2 P6E-GB200和Amazon EC2 P6-B200机会可以提高共享培训中的集体沟通速度高达18%。基础设施效率Amazon EC2 P6-B200使用了经过验证的空气冷却架构,而Amazon EC2 P6E-GB200 Ultraserver使用液体冷却解决方案,可以使NVLLINK的大型建筑实现更高的密度计算,从而改善了整体系统性能。 P6E-GB200配备了创新的机械冷却设计,可以使柔性芯片级冷却水平适用于新的和现有的Sentro数据,这允许液体冷却加速器,冷却网络和同一设施中的存储设备。凭借冷却体系结构的灵活性,亚马逊云技术可以以较低的成本提高性能和效率。使能够Nvidiablackwell到Amazon Cloud Technology Amazon Cloud Technology简化了使Amazon EC2 P6E-GB200 Ultracerver和Amazon EC2 P6-B200机会通过许多伸展路径的机会,因此客户可以迅速使用Blackwell使用操作和维护。如果客户想加快AI的发展并减少对基础设施和集群运营的投资,那么亚马逊萨吉式制剂Amazon Sagemaker Hyperpod是一个好主意。服务提供的IIT是一种可靠且可靠的基础架构,可以自动配置和管理大型GPU群集。 Amazon Cloud Technology还继续增强Amazon Sagemaker Hyperpod,并添加了创新功能,例如灵活的培训计划,以帮助客户获得不可预测的培训周期和控制预算内的培训活动。 Amazon Hyperpod将支持Amazon EC2 P6E-GB200 Ultraserver和Amazon EC2 P6-B200机会,并通过优化在同一NVLINK域内保持工作负载最高性能。 Amazon Cloud Technology还建立了一个完整的多级恢复机制:Amazon Sagemaker Hyperpod可以自动替换在同一NVLI域中的预配置备份机会的错误节点。内置的仪表板将通过使用GPU的使用,在工作负载上使用内存以及对服务器操作状态的超级辅助纪念活动提供。 Amazon EX用于大型AI工作负载,如果客户更喜欢使用Cubertes管理基础架构,则通常首选具有控制平面的Amazon Elastic Kubnetes服务(Amazon Ex)。 Amazon Ex继续将创新推向亚马逊EX,例如Amazon Ex Hybrid节点的能力,该节点可以同时对该地区进行管理和Amazon EC2 GPU到同一集群,从而为AI工作负载带来了更大的灵活性。 Amazon Ex支持Amazon EC2 P6E-GB200 Ultraserver和Amazon EC2 P6-B200 P6-B200 P6-B200 P6-GB200机会由托管节点组提供。对于亚马逊EC2 P6E-GB200 Ultraserver,Amazon Cloud技术正在构建拓扑意识,以通过GB200 NVL72体系结构识别它,并自动将Ultraserver ID信息和网络拓扑信息添加到节点中,以实现最佳的工作负载计划。客户可以选择在多个Ultraserver之间部署节点组或专注于单个Ultraserver,从而在培训基础架构的体系结构中获得更大的灵活性。 Amazon EX还监视GPU和ACCELERATOR错误,并通过Kubnetes控制平面上的基于基于的信息来支持后续处理。 NVIDIA DGX Cloud也提供了Amazon Cloud Technology中的NVIDIA DGX云。 DGX云是一个单一的AI平台。通过多节点AI培训和能力策划,各个级别都优化了体系结构,其中包括NVIDIA软件的完整堆栈。客户可以利用最新的NVIDIA性能解决方案,基准测试方法和技术专长,以提高效率和性能。该平台还提供了NVIDIA专家提供的灵活服务截止日期选项以及全面的支持和服务,以帮助客户加速其AI项目。启动是一个重要的里程碑,但这仅仅是开始。随着AI能力的持续快速发展,客户要求的基础架构不仅应满足当前的需求,而且还应为未来的不同可能性提供支持。通过连续更改Pagho-Host的计算,网络,操作和服务,Amazon EC2 P6E-GB200 Ultraserver和Amazon EC2 P6-B200的机会,可以实现这些可能性。我们期待看到客户的未来。