为了建立合作伙伴生态圈,腾讯云智造推出了 “WeMake产业合作伙伴511计划”,围绕研、产、供、销、服五大流程,联合100 + 合作伙伴,打造1000 + 产品解决方案。本专栏将继续介绍质量解决方案。

由于我国高性能计算领域的核心系统大部分 “负载管理系统” 使用国外产品和开源产品,计算资源的分配不灵活,解决资源管理、维护、并且应用程序环境的复杂部署受到限制。迫切需要用自己的负载管理系统来替代国外产品。QuickPool负载管理系统是高性能计算核心软件系统是高性能计算不可缺少的基础软件。可以说,没有负载管理系统,就无法进行高性能计算。

QuickPool负载管理系统具有针对各个领域设计的调度策略,提供统一的作业提交入口,集中调度和分配资源,整合池化集群资源,实现集群负载均衡调度,提高集群资源的整体利用率,可以将计算集群的利用率从40% % 提高到80% % 以上,大大提高高性能计算的性能,使高性能计算真正发挥超级计算能力。

QuickPool负载管理系统

五大核心功能

多个基于队列的调度策略

不同的场景和不同的行业需要不同的策略。QuickPool负载管理系统集成了各个领域的调度策略,包括: FCFS调度策略、负载均衡调度、公平调度fairshare、抢占式调度策略抢占、独占调度、预留/回填调度、GPU调度、自定义资源调度 (如许可证调度) 、基于数据位置的调度等。

多优先级队列

您可以为每个队列配置多个队列:

  • 有自己的优先权;

  • 您可以挂载不同的计算节点集;

  • 并配置不同的调度参数;

  • 您可以配置不同的调度策略;

作业资源管理

,您可以指定运行作业时需要分配多少资源 (如内存和交换)。当作业计划运行时,资源会在系统中分配和占用,并在作业运行后释放。同时,用户可以通过配置文件抽象和定制系统资源,通过外部脚本收集和更新定制的动态资源。

节点和作业的容错能力

  • 异常计算节点上的操作系统可以调度在其他节点上再次运行,保证作业运行的可靠性和及时性;

  • ,您可以重新计划退出异常的作业。

绿色计算

绿色计算是未来负荷管理系统发展的主要趋势。在不运行作业或运行负载较小的作业的节点上,长期活动的计算机资源功耗巨大且无用。因此,降低资源能耗成为未来负荷管理系统的主要难点。通过临时关闭负荷较小的节点,节能降耗,可以有效提高节点的服务周期,从而提高整个负荷管理系统的运行效率。QuickPool可以结合xCat等集群管理软件,根据配置文件中配置的时间段,控制计算节点定期休眠和唤醒。

运维方案

智能运维平台利用各种算法训练学习作业执行过程中记录的各种信息,动态评估作业的执行时长,自动设置作业执行配置和回填策略设置,减少人工干预,提高整体作业执行成功率。

系统利用各种算法对结果集进行训练和学习,得到不同应用作业对不同主机的最优分配,并自动将作业匹配到最合适的主机上,从而提高作业的整体运行效率。

此外,系统还使用各种算法训练和学习资源使用结果集,获取不同应用程序作业的总体资源需求,并自动分配和调度作业资源,从而减少了人工资源分配的主观性,大大提高了整体作业调度的便捷性和资源使用的合理性。

应用场景

QuickPool负载管理系统可应用于所有高性能计算领域,包括但不限于以下类别:

工业仿真

该领域需要综合考虑各种影响因素来设计产品的外观和整体结构。为了最大限度地提高产品的性能,需要高性能计算来分析和处理大量数据。相关的工业设计领域包括汽车设计、电子设备制造、工艺品等。

地震预报

高性能计算可以计算各种层应力变化并模拟地壳运动,这将有助于人们探索地震预测方法,从而减少与地震有关的灾害风险。

生命科学

到细胞网络模拟,生物学已经显示出巨大的计算需求。高性能计算可以有效地帮助人类完成大量的模拟计算,支持人类探索生命的秘密。

地球物理学

地球物理中的高性能计算涉及大量数据处理和模拟,例如石油调查等问题,具有巨大的潜在经济效益。

天体物理学

高性能计算是模拟天体物理学的基础。通过大量高效的计算能力,它可以模拟时间过程并加速模拟过程,从而对天体的演化进行建模和理论实验。

汽车设计

汽车设计需要综合考虑空气流体力学、油耗、结构设计、耐撞性、乘员舒适性、噪声等诸多因素。因此,要设计一辆好的汽车,必须借助高性能计算计算能力来进行仿真工作。

纳米材料

在设计纳米材料等新材料时,物质和能量的模拟是计算密集型的。只有高性能计算才能发现物质和反应,具有很高的经济效益。

社会科学治理

使用高性能计算来模拟影响社会健康和安全的流程和系统,例如污染,灾难以及针对本地和国家基础设施的恐怖活动。此外,宏观经济学、社会学和其他学科的研究也需要高性能计算,例如模拟大量人口的行为。

腾讯云和Quickpool负载管理系统

腾讯云拥有多年的海量互联网服务经验。QuickPool负载管理系统直接部署在腾讯云的云主机中,它根据资源需求灵活创建计算集群并动态扩展和收缩。

QuickPool负载管理系统提供了两种与云相结合的设计思想。它不仅可以与云平台形成高性能计算生态系统,构建高性能计算集群; 还可以与云原生平台集成,利用云平台成熟的容器。应用管理能力,结合负载管理系统提供的高性能计算调度策略,优化容器化应用的资源配置。

在实际应用中,QuickPool负载管理系统与腾讯云集成,不仅可以与腾讯云形成高性能计算平台,管理资源使用和作业调度分配; 还可以与腾讯云集成,外部调度器用于腾讯云。容器平台为批处理任务优化提供了专用的调度策略,并为提交给容器平台的批处理任务提供了增强的调度,提高了批处理任务调度的灵活性和吞吐量。

在现代工业研发中,高性能计算扮演着重要的角色。腾讯WeMake和合作伙伴一起做好行业数字化平台的配套工作,各个行业领域对高性能计算的广泛需求,共同打造解决方案,助力企业数字化转型。

“WeMake工业合作伙伴511计划” 的继续进行,我们真诚招募愿意与腾讯一起积极参与智能制造的合作伙伴。以WeMake品牌产品为基础,实现企业 “供、研、产、销服务” 各个环节的数字化转型,帮助企业降本增效。在互联网与实体产业的合作中,腾讯产业将继续做数字助手,成为实体产业的助推器。

511计划 | QuickPool: 构建高性能计算核心系统

创建时间:2021-06-15