硬件资源

上海交通大学高性能计算中心成立于 2011 年,旨在为校内大规模科学与工程计算提供高性能计算相关的服务,并负责培训和培养高性能计算人才,同时承担一定的科研任务。中心于 2013 年建成当时国内教育部直属高校第一的超级计算机,并在国内高校率先成立了一支专职计算支撑团队,服务覆盖全校科研计算用户,经历超级计算机一个完整的运行周期后,中心在 2019 年完成新一代计算平台的建设,先后建成国内高校领先的高性能计算平台和人工智能计算平台。

高性能计算平台双精度理论峰值性能为 2.1 PFLOPS,是国内高校和上海地区最快的超算之一。π 2.0 是国内最早使用 Intel Cascade Lake CPU 构建的超算,拥有 656 台计算节点,共计 26240 个 CPU 核,可同时支持 HPC 与 AI 应用。计算节点之间使用 100 Gbps 的 Intel OmniPath 互联。并行存储的聚合存储能力为 6 PB,采用 Lustre 并行文件系统。为了更好的支持 IO 密集型应用,π 2.0 还在国内首次采用了基于 Intel 全闪存 NVMe 固态硬盘搭建的 Lustre 存储系统,π 2.0 的详细配置如下表所示。

人工智能计算平台双精度计算能力达到 1 PFLOPS(千万亿次),张量计算能力达到 16 PFLOPS,其计算能力由 8 台 NVIDIA DGX-2 服务器提供。DGX-2 是目前世界上计算能力最强的人工智能计算和科学计算服务器,每台 DGX-2 配置 16 块 Tesla V100 GPU 加速卡,2 颗 Intel 至强铂金 8168 CPU,1.5 TB DDR4 内存,30 TB NVMe SSD 和 512GB HBM2 显存。数据传输上,GPU 卡之间使用 NVSWITCH 交换芯片实现 NVLINK 高速无阻塞全互联,互连带宽达到 300 GB/s,每台 DGX-2 NVSWITCH 总数达到 12 个,提供 2.4 TB/s 半分带宽;8 台 NVIDIA DGX-2 服务器之间则使用 Mellanox 100 Gbps Infiniband EDR 全线速无阻塞交换机互联。


设备 类型 参数 数量
CPU Node Server NS5488M5 CPU:2 x Intel Xeon Scalable Cascade Lake 6248(2.5GHz,20 cores)
Mem:12 x Samsung 16GB DDR4 ECC REG 2666
656
Login Node Server NF5280M5 CPU:2 x Intel Xeon Scalable SkyLake 5118(2.3GHz,12 cores)
Mem:6 x Samsung 16GB DDR4 ECC REG 2666
3
Large Memory Node Server R840 CPU: 4 x Intel Xeon Scalable SkyLake 6148(2.4GHz, 20cores)
Mem: 48 x Hynix 64G DDR4 ECC REG 2666 (3TB)
2
Computing Network Switch Intel OmniPath 100Gbps (Prairie River based) Director Switch Chassis (up to 1152 ports in 32-port increments) (20U height, maximum support to 1152), comes standard with 1 management module, 5 years warranty service 1
Single port OmniPath 100Gbps high speed network card 10M Optical with molded-in transceivers 48P-Lf QSFP-DD to 2x QSFP (Y-Cable) 12
Management Network Switch Cisco Gigabit Switch 1U rack-mount, 48 Gigabit electrical ports, 4 10G SFP+ fiber interfaces, 672Gbps switching capacity, and packet forwarding rate of 132Mpps 16
NVMe Lustre (289T) Storage MDT 2.5-inch enterprise-class SSD hard drive, 960GB*12, 12G SAS port 1
Server OSTNF5280M5 I_8KU2D_SSDPE2KX080T8_T2_8_131_P451 NVMe SSD*8 5
Lustre (6P) Storage MDT2600FV3 2.5-inch enterprise-class SSD , 3.84TB*34 1
Storage OST5300V5 3.5-inch enterprise-class 10TB NL-SAS*84 12
GPU Node Server NVIDIA DGX-2 CPU: 2 x Intel Xeon Scalable Cascade Lake 8168(2.7GHz,24 cores)
Mem: 1.5 TB DDR4 ECC REG 2666
GPU: 16 x NVIDIA Tesla V100
8