我实验室一篇论文 “LS‑HTC: an HTC system for large‑scale jobs” 被计算机系统结构领域期刊 CCF Transactions on High Performance Computing (THPC)(CCF C)接收!
论文简介:高通量计算(HTC)利用大量计算资源在长时间内完成一批短而快的任务,被地球科学、材料科学、生物医学等模拟计算广泛应用于处理大规模模拟任务。当作业数量达到大规模水平,如数百万或数千万时,大规模任务的调度和管理将给高性能计算集群带来巨大负担。因此,一个支持大规模工作、对HPC集群影响不大的HTC系统成为这些社区的迫切需求。为了解决这个问题,我们提出了一个LS-HTC系统,它可以调度百万级作业和百万级计算资源。文章设计了LS-HTC的体系结构和工作流,为大规模作业执行提供了两级调度解决方案。文章进一步实现了原型系统,并在HPC集群中使用2000多万个作业、8000个计算节点和128000个CPU核心进行评估。实验结果表明,LS-HTC系统可以在对HPC集群的共享存储系统和管理系统影响可忽略的情况下,根据作业的总和动态调整计算节点的总和,从而最大限度地利用计算资源。
该项工作是由我实验室胡俊成讲师(第一作者)、车喜龙教授(通讯作者)、已毕业硕士阚博文等人联合完成的。