[本科毕设]异构集群上的全基因组聚类程序优化

摘要:

传统的研究生物体疾病与基因关系的方法关注生物个体基因与疾病之间的关联,试图通过在人类基因组中找出异变序列,即单核苷酸多态性(SNP),并通过聚类从中筛选出与疾病相关的SNPs。而全基因组聚类方法将环境基因也纳入了分析范畴,通过对“环境-生物体”的“全基因样本”进行数据分析研究,找出环境基因与生物体基因的相互作用,为解释复杂疾病(如二型糖尿病等) 的成因提供了新的思路。全基因组聚类的样本数达数千量级,基因-样本对数达百万量级,并且在计算过程中涉及大量迭代步骤和浮点数运算操作,因此单线程串行程序的运行时间已无法满足科研要求。
本文从并行加速的角度,结合“多节点集群”和“加速卡”技术,在上海交大所属超级计算机π上对全基因组聚类程序进行了性能优化。首先,我们对程序进行热点分析及性能建模,根据分析结果,在共享存储器模型上使用OpenMP 指导语句对程序进行单节点多线程加速优化,与串行程序相比获得了接近CPU 核数,也即接近16 倍的加速比。在此基础上,我们使用MPI 消息通信模型,将并行程序扩展到多CPU 节点上,并且在16 个CPU 节点上获得了90倍左右的加速比。为了利用加速卡的卓越的浮点运算能力,我们将程序移植到了GPU 加速卡的CUDA 计算平台上,并且利用了片上共享存储器的优势,在单GPU 卡上获得了110 倍左右的性能提升。最后,我们结合MPI 消息通信技术将CUDA 代码扩展至多GPU 卡上,在5 个GPU 卡上实现了210 倍左右的加速。

关键词:全基因组聚类,并行计算,加速卡,多节点集群

论文下载

上一条:[本科毕设]基于国产众核平台的GTC-P代码移植与优化 下一条:基于OpenACC的Tesla K20与Xeon Phi 7110P性能可移植性评估

Copyright ©2013 SJTU Network & Information Center All rights reserved.