高性能计算硬件资源

上海交通大学“交我算”平台提供的高性能计算资源总聚合算力 9 PFLOPS(每秒千万亿次),聚合存储能力 65 PB。高性能计算硬件资源包含国内高校一流的绿色水冷“思源一号”集群、π2.0集群、人工智能计算平台、国内高校首个国产ARM集群、科学大数据平台等。

  • “思源一号”高性能计算集群建于 2021 年,总算力 6 PFLOPS(每秒六千万亿次浮点运算),是目前国内高校第一的超算集群,TOP500 榜单排名第132位。CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 938 个计算节点;GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。“思源一号”贯彻绿色计算理念,采用联想第五代温水冷技术,与通用风冷计算设备相比,节省电力和减少二氧化碳排放 42%。计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB。集群额定功率900kW,其中IT设备额定功率800kW,制冷、配电设备额定功率100kW。单机柜(水冷)额定功率55kW,机柜总数18个,PUE约1.10。
  • 平台
    设备
    参数
    数量
    杨元庆
    科学计算中心
    “思源一号”
    CPU 节点 CPU: 2 x Intel Xeon ICX Platinum 8358 (2.6GHz, 32 cores)
    Mem: 16 x 32GB TruDDR4 3200 MHz (2Rx8 1.2V) RDIMM
    938
    GPU 节点 CPU: 2 x Intel Xeon ICX Platinum 8358 (2.6GHz, 32 cores)
    GPU: 4 x NVIDIA HGX A100 40GB
    23
    GPFS 并行存储容量 10 PB

  • π 2.0 集群建于 2019 年,双精度理论峰值性能为 2.1 PFLOPS,是国内高校和上海地区最快的超算之一。π 2.0 是国内最早使用 Intel Cascade Lake CPU 构建的超算,拥有 656 台计算节点,共计 26240 个 CPU 核,可同时支持 HPC 与 AI 应用。计算节点之间使用 100 Gbps 的 Intel OmniPath 互联。集群额定功率580kW,其中IT设备额定功率350kW,人工智能计算平台额定功率80kW,制冷、配电设备额定功率150kW。单机柜额定功率13kW,机柜总数28个,PUE约1.41。
  • 人工智能计算平台建于 2019 年,双精度计算能力达到 1 PFLOPS,张量计算能力达到 16 PFLOPS,其计算能力由 8 台 NVIDIA DGX-2 服务器提供。每台 DGX-2 配置 16 块 Tesla V100 GPU 加速卡,2 颗 Intel 至强铂金 8168 CPU,1.5 TB DDR4 内存,30 TB NVMe SSD 和 512GB HBM2 显存。数据传输上,GPU 卡之间使用 NVSWITCH 交换芯片实现 NVLINK 高速无阻塞全互联,互连带宽达到 300 GB/s,每台 DGX-2 NVSWITCH 总数达到 12 个,提供 2.4 TB/s 半分带宽;8 台 NVIDIA DGX-2 服务器之间则使用 Mellanox 100 Gbps Infiniband EDR 全线速无阻塞交换机互联。
  • 平台
    设备
    参数
    数量
    π 2.0
    高性能计算平台
    CPU 节点 CPU: 2 x Intel Xeon Cascade Lake 6248 (2.5GHz, 20 cores)
    Mem: 12 x Samsung 16GB DDR4 ECC REG 2666
    656
    CPU 节点 CPU: 4 x Intel Xeon SkyLake 6148 (2.4GHz, 20cores)
    Mem: 48 x Hynix 64G DDR4 ECC REG 2666 (3TB)
    2
    人工智能
    计算平台
    GPU 节点 CPU: 2 x Intel Xeon Cascade Lake 8168 (2.7GHz, 24 cores)
    GPU: 16 x NVIDIA Tesla V100 32GB
    8
    Lustre 并行存储容量 25 PB

  • ARM超算平台是国内首台基于ARM处理器的校级超算集群。平台一共有100个计算节点,单节点配备128核(2.6GHz)、256GB内存(16通道DDR4-2933)、240GB本地硬盘,节点间采用IB高速互联,挂载Lustre并行文件系统。集群额定功率85kW,其中IT设备额定功率60kW,制冷、配电设备额定功率25kW,单机柜额定功率12kW,机柜总数5个,PUE约1.25。