0.为什么集群叫π?有什么含义?

                  1.π在希腊文里具有并行的涵义;

                  2.π是无限不循环的无理数,是人类理解无限的开始;

                  3.π的精确计算是人类使用计算机解决科学问题的代表;

                  4.π可看作交通大学首字母J和T的组合。

        

            1.账号申请和登陆

            1.1 Q:如何开通账号?

                  A:请先阅读https://net.sjtu.edu.cn/wlfw/gxnjsfw.htm操作说明,填写《上海交通大学高性能计算申请表》,无需

                  盖章直接发送至hpc@sjtu.edu.cn,账号申请人必须为在校教师(含博士后)。我们将会在两个工作日内开通账号

                  并将账号信息发送至您的邮箱。

        

            1.2 Q:我为什么连不上集群?

                  A:(1) 请首先保证网络畅通。

                  (2)目前π 集群设有防火墙,需添加IP地址白名单。您可以使用mu07(202.120.58.231)登录,该节点正在试行黑名单规则,

                        无需添加防火墙白名单即可正常使用。未来我们将逐步开放更多这样的登录节点。

                  (3)集群登陆节点设置了fail2ban服务,当您多次输入密码错误后会被临时封禁1小时,请稍事等待后再尝试。如果您需要重

                  置密码,请使用或抄送账号负责人邮箱发送邮件到hpc@sjtu.edu.cn,邮件中注明账号,我们将会在1个工作日内响应您的申请。

        

           1.3 Q:是不是只有教职工才能申请帐号?学生要使用超算该怎么办?

                  A:是的。只有教职工(含博士后)才能申请主账号。一个主账号下面可以免费开通4个子账号。子账号之间可以

                  设置目录访问权限,保证数据在子帐号之间共享。

        

            1.4 Q:子账号的申请和费用?

                  A:发送子账号申请至hpc@sjtu.edu.cn,申请内容需包含自定义的子账号名,格式为xxx-yyy,其中xxx为主账号,

                  yyy可以自定义,比如user1、user2。我们将在两个工作日内为您开通。

                  每个主账号下可以免费开通4个子账号,超出之后,每个子帐号收取200元/年的管理费。

        

            2.作业提交和运行

            2.1 Q:哪里有操作手册/文档?

                  A:https://pi.sjtu.edu.cn/doc/ 。

        

            2.2 Q:单个作业最长运行时间是多长?

                  A:7天。

        

            2.3 Q:我的作业需要运行超过7天,有没有办法延长运行时限?

                  A:有。可以在作业脚本中添加#SBATCH --qos=qoslong选项,作业的最长时间将被续为30天。需要注意的是:

                  30天作业的排队时间可能会较长,且运行超过7天后意外终止的作业不做返还或诊断。

        

            2.4 Q:已经开始的作业如何延长运行时限?

                  A:我们无法延长已经开始运行的作业时限,如果有需要请重新提交作业。

        

            2.5 Q:我的作业需要大内存怎么办?

                  A:目前集群有胖节点和huge节点两种节点可以提供较大的内存。

                  胖节点每节点提供256G内存,集群有20台。要提交到胖节点,请参考以下脚本头

        

                        #SBATCH -J fat-test

                        #SBATCH -p fat

                        #SBATCH --mail-type=end

                        #SBATCH --mail-user=YOU@EMAIL.COM

                        #SBATCH -o %j.out

                        #SBATCH -e %j.err

                        #SBATCH --ntasks-per-node=16

        

                  huge节点每节点提供3T内存,集群有2台。要提交到huge节点,请参考以下脚本头。

        

                        #SBATCH -J huge-test

                        #SBATCH -p huge

                        #SBATCH --mail-type=end

                        #SBATCH --mail-user=YOU@EMAIL.COM

                        #SBATCH -o %j.out

                        #SBATCH -e %j.err

                        #SBATCH --ntasks-per-node=80

                        #SBATCH --time=2-00:00:00

\

        

            2.6 Q 如何预约节点?

                  A:请将您的账号,要使用的节点类型和数量,以及预约资源使用时间发送至hpc@sjtu.edu.cn。需要注意的是:

                    1.资源预约不收取额外手续费,因此我们会动态调整用户的可用资源数,避免预约资源闲置浪费;

                    2. 申请人向 hpc@sjtu.edu.cn 提交申请,管理员分配 --reservation 后就可以提交作业进行排队,不需要等待预约资源就绪;

                    3. 预约资源使用时间一般不超过两周。

\

            2.7 Q 如何缩短作业排队时间?

                  A:用户可以通过指定合理的作业运行时间、向管理员预约资源、向管理员申请提高作业优先级等方法,来缩短作业排队时间。

                  在作业脚本中使用 --time 参数指定作业的最长运行时间,可促使SLURM采取更激进的调度策略,从而缩短该作业的排队时间。

                  对于近期有紧急大规模计算任务的用户,可向管理员免费预约专属资源池,只要资源池有可用节点,用户作业就无需排队。为了优

                  化集群利用率并照顾公平性,管理员将动态调整预约的资源池大小,避免预约资源闲置浪费。资源池使用一般不超过2周,收到管

                  理员分配 --reservation 后就可以提交作业进行排队,不需要等待预约资源就绪。

                  对于短期内有大量紧急小规模计算任务的用户,可向管理员免费申请提高排队优先级。具有高优先级的用户将以更高的优先级获得

                  计算资源使用权,且不需要修改作业脚本,最多可同时使用超过100个节点,可连续使用1个月。

\

            3.作业出错

            3.1 Q:为什么我的作业运行结果是作业运行结果是node_fail,该怎么处理?

                  A:node_fail是提示由于计算节点故障导致作业运行失败。您重新提交作业即可。失败作业的机时系统会自动

                  返还,您无须发邮件告诉我们。

        

            3.2 Q:作业错误日志显示Disk quota exceeded是什么意思?

                  A:这是由于帐号下的文件大小超出存储配置所致。用户可以使用lfs quota -u `whoami` /lustre/查看当前存储状况。

                  下面是一个输出示例:

        

                        Disk quotas for user xxx (uid xxxx):

                        Filesystem kbytes quota limit grace files quota limit grace

                       /lustre/ 123456 0 123450* - 12345 0 600000

        

                  在这个输出示例中,123450*中*意味着账号下的空间配额超标。

                  目前每个账号提供2T空间配额,600000文件数的配额。请尽量整理账号下的文件,如将不常用的文件打包压缩,以腾出

                  更多使用空间和文件数。如果有配额调整的需求,请参考Q3.3。

        

            3.3 Q:能不能调高存储配额?

                  A:能。目前每个账号的免费配置为:2T的空间配额,600000的文件数配额。超出的空间配额收取16.6元/T/月的费用,

                  如果有扩容需求请发邮件至hpc@sjtu.edu.cn申请。

                  请注意,超出的文件数配额目前暂不收费,但我们希望您能够适当归档账号下的文件,

                  如:将不常用的文件打包压缩,以腾出更多使用空间。如确实需要更多的文件数,请发邮件至hpc@sjtu.edu.cn,

                  告知所需的文件数配额,我们将酌情予以增加。

        

            3.4 Q:为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?

                  A:登陆节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,

                  会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,会定期巡查登陆节点任务情况,查杀不正常占用登陆

                  节点资源的任务。请务必将这些任务提交到计算节点进行。

            4.软件安装

            4.1 Q:如何在超算上安装开源软件?

                  A:请查看https://pi.sjtu.edu.cn/doc/ 获取已有软件信息。如未找到所需的软件信息,请发送邮件至hpc@sjtu.edu.cn获取帮助。

        

            4.2 Q:超算上是否提供商业软件?

                  A 目前暂不提供商业软件,不过您可以自行购买后安装。以下是注意事项:

                 商业软件License通常需要使用专用的License服务器, 在购买商业软件并尝试在 π 集群上部署License服务器前,

                  请与我们以及软件厂商进行充分沟通,请注意:

        

                        1) 不要把License绑定到Pi集群的登录节点,即202.120.58.229/230/231;

                        2) 请购买浮动授权,即计算程序可以在集群上的任意一个节点启动,通常需要安装特定的License服务器;

                        3) 询问License服务器是否可以部署在虚拟机上,这样我们可以专门开一台虚拟机运行您的License服务器;

                        4) 与厂商充分沟通License服务器安装模式、授权数量、使用限制、更换MAC地址的费用以及厂商具备基

                        本的技术支持能力。如果需要了解 π 集群的软硬件信息,可以在交流过程中抄送 hpc@sjtu.edu.cn 。

        

            4.3 Q: 普通用户如何使用sudo安装软件?

                  A: 有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用sudo特权操作极有可能影响其他用户的程序和数据,因此

                  普通用户禁止使用sudo。通常普通用户无需sudo就能在家目录中安装和使用软件,且使用sudo安装的软件会被错误安装在本地文件系

                  统上而不能在计算节点上运行。请参考 https://pi.sjtu.edu.cn/doc/modules/ 了解当前集群提供的软件模块或通过 hpc@sjtu.edu.cn

                  告诉我们需要安装的软件。对于需要sudo安装的商业软件,请参考 FAQ 4.2 由软件厂商工程师工程师联系我们指定安装方案。

\

            4.4 Q:超算上是否提供matlab?

                  A:目前我们暂不提供商业软件,且学校提供的单机版matlab并不适用于π集群。对于您使用集群版matlab的需求,我们建议您联系

                  校云计算平台许天老师(tianxu016@sjtu.edu.cn)开通云主机账号,目前云计算平台提供了免费正版集群版matlab给全校师生使用。

/

            5.机时和收费

            5.1 Q:如何收费?

                 A:收费详情请见https://hpc.sjtu.edu.cn/regulation_20181008.pdf 。

        

            5.2 Q:如何查看账户余额?

                  A:您可以使用主账号登陆https://acct.hpc.sjtu.edu.cn/PARATERA/login.jsp 查看。

        

            5.3 Q:有没有机时奖励政策?

                  A:目前新的收费政策正在商讨中,预计将于近期公布。在此之前已有的奖励机时仍然生效。

           6.邮件支持

            6.1 Q 向hpc@sjtu.edu.cn发送的邮件多久才能收到回复?

                 A :根据邮件内容不同,下面是响应周期:

                       1. 邮件确认:1个工作日内;

                       2. 添加IP到白名单:1个工作日内;

                       3. 编译Spack已有的软件包:2个工作日内;

                       4. 调整作业脚本:1个工作日内;

                       5. 排查异常中断作业:2~3个工作日内;

                       6. 新建帐号:2个工作日内;

                       7. 编译不包含在Spack或自行开发的软件包:1~2周内。