阿里云弹性高性能计算产品
针对高性能计算的场景,阿里云提供了弹性高性能计算产品,由PaaS层的弹性高性能计算E-HPC(Elastic High Performance Computing)及其算力底座超级计算集群SCC(Super Computing Cluster)组成。
弹性高性能计算E-HPC
弹性高性能计算E-HPC将计算能力积聚,用并行计算方式解决更大规模的科学、工程和商业问题,在工业制造、科学研究、石油勘探、金融市场、气象预报、生物制药、基因测序、影视渲染等行业均有广泛的应用。
产品架构图如下所示。
E-HPC集群节点支持基于云服务器ECS、超级计算集群SCC或GPU云服务器等进行组建,大大提高了集群的可用性。在需求或任务队列使用率变化时,E-HPC能自动识别节点的负载情况,动态调整云上资源。
对比项 | E-HPC | 传统计算集群 |
---|---|---|
部署 | 无需排期,即买即用,快速得到计算结果。 产品规格丰富,可根据使用场景灵活选择适用规格。 | 资源有限,多用户使用时需排队等待。 线下扩容采购周期长,部署周期长。 |
安全 | 数据保存在云端,高可靠存储,安全无忧。 | 数据保存在客户端,用户行为不可控,安全难以保障。 |
成本 | 按需自动扩缩容资源,在保证服务可靠可用的前提下,有效降低成本。 无需顾虑硬件升级换代。 提供优化的软件许可证和调度机制,节约成本。 | 按使用峰值购买设备,利用率较低。 需一次性购置基础硬件设施,成本压力大。 需要考虑硬件设施的升级换代,增加集群成本。 |
运维 | 自动运维,弹性伸缩自动替换不健康的节点。 E-HPC提供了高性能计算领域的多款软件,并且跟随E-HPC产品一起升级。 | 资源采购和交付周期长,升级、变配困难。 需配备专业运维人员。 |
超级计算集群SCC
超级计算集群SCC是一系列弹性裸金属服务器实例规格的组合,并在此基础上,加入高速RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模集群加速比。
SCC主要用于高性能计算和人工智能、机器学习、科学计算、工程计算、数据分析、音视频处理等场景。在集群内,各节点间通过RDMA网络互联,提供了高带宽低延迟网络,保证了高性能计算和人工智能、机器学习等应用的高度并行需求。同时,RoCE(RDMA over Convergent Ethernet)网络速度达到InfiniBand网络级的性能,且能支持更广泛的基于以太网的应用。SCC与阿里云ECS、GPU云服务器等计算类产品一起,为阿里云弹性高性能计算服务提供了高性能的并行计算资源,实现云上超算。