高性能计算硬件资源

上海交通大学“交我算”平台提供的高性能计算资源总聚合算力 320 PFLOPS(每秒千万亿次),聚合存储能力 75 PB。硬件资源包含“致远一号”国产千卡智算平台、国内高校一流的绿色水冷“思源一号”高性能计算平台、π 2.0 高性能计算平台、国内高校首个国产ARM计算平台、科学大数据平台等。

“致远一号”国产千卡智算平台于2025年9月建成,专注于前沿科研、课程创新和人才培养,提供可靠、高效、易用的AI算力支持。平台以软硬一体、全面协同的架构,为校内师生及合作机构打造了全方位的智算服务体系。

平台硬件配置包括1024张华为昇腾910B加速卡,FP16峰值算力313P,配合Pacific分布式存储与BurstBuffer架构,总存储容量13.6PB。计算方面,配备101台CPU节点,形成5000+ vCPU的通用计算池;云服务支持IaaS、PaaS、SaaS全栈功能,具备异构算力调度与云化弹性部署,能够满足教学、科研和管理等多样化需求。

网络与算力资源由智算集群区、云平台区和存储区构成。智算集群区部署128台Atlas 800T A2昇腾服务器,共1024张NPU卡,峰值算力320P,每机柜安装5台,单柜功率30kW。网络架构分为参数面(200GE RoCE,1:1收敛,32台CE9855 Leaf + 16台CE9855 Spine)、业务面(100GE,SDI智能网卡,8台CE8850 Leaf + 2台CE9865-4C Spine)和样本面(25GE RoCE,1:1收敛,8台CE6865E Leaf + 4台CE8850 Spine)。云平台区基于HCSO和ModelArts,配置101台鲲鹏Taishan 200 2280 V2服务器及60台网络设备,并提供2PB云对象存储、1PB云块存储和1.6PB云文件存储。存储区采用全闪与混闪架构,全闪Pacific 9950提供43节点、6.5PB容量,混闪Pacific 9550提供12节点、2.5PB容量,为并行计算与大规模模型训练提供高效数据支撑。

机房建设方面,平台共设52个47U加高机柜,分布在3组封闭微模块中,其中34个用于智能计算服务器(单柜功率30kW),18个用于存储和网络服务器(单柜功率20kW)。供电系统额定功率960kW,机房配电总功率1380kW,采用小母线架构,每个机柜配备双路PDU,存储和网络机柜还接入UPS,断电可维持15分钟不间断供电。制冷系统配置30台风冷列间精密空调,单台60kW,按“N+2”冗余方案部署,总制冷功率1440kW,并采用氟泵双循环自然冷却技术,全年综合PUE约1.3,兼顾高效与节能。

集群网络拓扑图

类型
设备
参数
数量
计算
CPU节点 CPU: 2*Kunpeng 920
Mem: 2048GB DDR5(4800MHZ)/512GB DDR5(4800MHZ)/1024GB DDR5(4800MHZ)
101
NPU节点 CPU:4*Kunpeng 920
NPU: 8*昇腾AI处理器
128
存储
高性能分布式存储节点 可用容量:2.5PB
型号:OceanStor Pacific 9950
主存盘:7.68T NVMe SSD*10
43
高容量分布式存储节点 可用容量:6.5PB
型号:OceanStor Pacific 9550
主存盘:16T SATA HDD *50
12
云存储 总可用容量:4.6PB 1
网络
参数面高性能交换机 主型号:CE9855-32DQ
端口:32 x 400GE + 2 x 10GE
交换容量:25.6Tbps
包转发率:8000Mpps
48
样本面高性能交换机 主型号:CE8850-64CQ-EI
端口:64 x 100 GE
交换容量:12.8Tbps / 204.8Tbps
包转发率:4,482Mpps
24

  • “思源一号”高性能计算平台建于 2021 年,总算力 6 PFLOPS(每秒六千万亿次浮点运算),是目前国内高校第一的超算集群,TOP500 榜单排名第132位。CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 938 个计算节点;GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。“思源一号”贯彻绿色计算理念,采用联想第五代温水冷技术,与通用风冷计算设备相比,节省电力和减少二氧化碳排放 42%。计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB。集群额定功率900kW,其中IT设备额定功率800kW,制冷、配电设备额定功率100kW。单机柜(水冷)额定功率55kW,机柜总数18个,PUE约1.10。
  • 平台
    设备
    参数
    数量
    杨元庆
    科学计算中心
    “思源一号”
    CPU 节点 CPU: 2 x Intel Xeon ICX Platinum 8358 (2.6GHz, 32 cores)
    Mem: 16 x 32GB TruDDR4 3200 MHz (2Rx8 1.2V) RDIMM
    938
    GPU 节点 CPU: 2 x Intel Xeon ICX Platinum 8358 (2.6GHz, 32 cores)
    GPU: 4 x NVIDIA HGX A100 40GB
    23
    GPFS 并行存储容量 10 PB

  • π 2.0 高性能计算平台建于 2019 年,双精度理论峰值性能为 2.1 PFLOPS,是国内高校和上海地区最快的超算之一。π 2.0 是国内最早使用 Intel Cascade Lake CPU 构建的超算,拥有 656 台计算节点,共计 26240 个 CPU 核,可同时支持 HPC 与 AI 应用。计算节点之间使用 100 Gbps 的 Intel OmniPath 互联。集群额定功率580kW,其中IT设备额定功率350kW,人工智能计算平台额定功率80kW,制冷、配电设备额定功率150kW。单机柜额定功率13kW,机柜总数28个,PUE约1.41。
  • π 2.0 高性能计算平台 GPU 节点双精度计算能力达到 1 PFLOPS,张量计算能力达到 16 PFLOPS,其计算能力由 8 台 NVIDIA DGX-2 服务器提供。每台 DGX-2 配置 16 块 Tesla V100 GPU 加速卡,2 颗 Intel 至强铂金 8168 CPU,1.5 TB DDR4 内存,30 TB NVMe SSD 和 512GB HBM2 显存。数据传输上,GPU 卡之间使用 NVSWITCH 交换芯片实现 NVLINK 高速无阻塞全互联,互连带宽达到 300 GB/s,每台 DGX-2 NVSWITCH 总数达到 12 个,提供 2.4 TB/s 半分带宽;8 台 NVIDIA DGX-2 服务器之间则使用 Mellanox 100 Gbps Infiniband EDR 全线速无阻塞交换机互联。

    平台
    设备
    参数
    数量
    π 2.0
    高性能计算平台
    CPU 节点 CPU: 2 x Intel Xeon Cascade Lake 6248 (2.5GHz, 20 cores)
    Mem: 12 x Samsung 16GB DDR4 ECC REG 2666
    656
    CPU 节点 CPU: 4 x Intel Xeon SkyLake 6148 (2.4GHz, 20cores)
    Mem: 48 x Hynix 64G DDR4 ECC REG 2666 (3TB)
    2
    GPU 节点 CPU: 2 x Intel Xeon Cascade Lake 8168 (2.7GHz, 24 cores)
    GPU: 16 x NVIDIA Tesla V100 32GB
    8
    Lustre 并行存储容量 25 PB

  • ARM超算平台是国内首台基于ARM处理器的校级超算集群。平台一共有100个计算节点,单节点配备128核(2.6GHz)、256GB内存(16通道DDR4-2933)、240GB本地硬盘,节点间采用IB高速互联,挂载Lustre并行文件系统。集群额定功率85kW,其中IT设备额定功率60kW,制冷、配电设备额定功率25kW,单机柜额定功率12kW,机柜总数5个,PUE约1.25。