Fsched由速石独立开发,是为数不多能够满足半导体、智能制造、生命科学和高校科研等特定行业需求的调度器。团队可以利用Fsched自动化构建和销毁HPC集群、规划资源上限、监控资源使用和任务进展,有效提升集群生命周期管理和项目研发效率。
团队经常面临内部资源分配不均的问题,并因资源分散导致部分闲置、部分使用过量的情况。调度器能够优化资源利用情况,避免形成内部孤岛,确保算力按需分配。
在缺乏集群调度管理时,会遇到如任务排队、资源抢占等问题,关键任务可能会被挤压,影响项目正常推进。调度器能够根据任务的重要性和紧急度进行智能排序,优化任务执行顺序。
手动调度任务对管理人员要求高,耗费大量精力的同时无法避免出错,影响项目整体效率和进程。调度器的自动化特性大幅减少了人工干预,提高了操作效率和准确性。
面对大量任务时,团队无法及时掌握资源使用情况和任务进程,不利于项目决策与团队协作。调度器能够记录和展示项目进度、资源用量等关键信息,帮助管理者及时调整计划与资源配置。
分区/队列管理
节点状态管理
优先级管理
作业提交
作业状态查看
作业远程执行,日志记录
作业通知
用户/组权限控制
用户资源控制
SSH访问控制
CPU
GPU
内存
许可证
......
资源用量统计
资源状态管理
负载阈值控制
抢占调度
回填调度
先进先出调度
Fairshare调度
基于QoS的调度
自定义调度策略
Fsched由速石独立开发,任务吞吐量最高可达1000任务每秒,仅需1ms即可响应,快速处理海量并行任务,经历了大规模生产环境下对稳定性和健壮性的严格考验,显著提升极端情况下的任务健壮性。
Fsched针对半导体、智能制造、生命科学等领域的企业需求,适配了大量行业主流应用,提供完整的集群生命周期管理,并针对行业不同特性提供最佳实践。同时,兼容LSF/SGE等调度器,使用体验不变。
借助Fsched,我们能够在任务提交出现异常时迅速响应,细分任务日志到基础设施、中间件、应用层级,精准定位问题所在。在提取到关键进程和I/O信息后,分析并快速识别日志中的重要信息,帮助团队定位、解决问题,保障项目顺利进行。
Fsched提供了产品级的IT自动化管理,使资源调用标准化、环境一致,降低了配置的复杂性和错误率,易于上手。它能够根据业务需求与底层资源灵活联动,自动进行资源的伸缩调整,更加适应云端使用的需求。
Fsched提供基于任务、资源或团队层面的调度策略,通过调度策略的灵活配置,最优化使用资源满足不同企业不同发展阶段的业务目标。在满足任务需求的同时,提升硬件与许可证等资源的利用率,实现团队之间的合理分配管理。
Fsched CE 社区版能为个人及中小型团队提供6节点/300核以内的集群管理能力,并提供包括调度策略及Wrapper在内的基础功能服务。
速石全系列产品均搭载了Fsched STD 标准版,能够无限制地管理集群资源,并提供企业级支持及附加的扩展功能。