“每一块GPU都很宝贵,是否能将这些资源很好地管理起来,直接影响了科研进度。”
1单机训练,本地多台机器无法进行统一管理,资源利用率低;
2GPU资源分散,只能单机使用,难以进行分布式训练;
3缺乏资源使用管理流程,日常使用基本靠抢;
4模型、数据集和镜像散落在单机上,没有统一的平台管理,维护工作繁琐;
5训练任务环境配置复杂、费时费力,移植难度高;
6难以对训练效果进行评估分析和调优。
AI计算
PyTorch
1提供了GPU资源的统一纳管平台,通过支持灵活的调度策略提高了资源整体利用率;
2提供了一个可视化的GPU资源管理平台,用户可以轻松选所需资源进行分布式训练;
3平台可支持管理员基于GPU的可用状态、任务状态、运行时长、任务队列等信息做管理;
4可统一对数据集、模型库和镜像进行管理,大大降低了复杂度;
5平台任务在容器环境运行,用户可以自行更新、保存镜像,易于管理和移植;
6监控模块可帮助用户实时分析训练效果,便于训练结果评估和模型调优。
1异构资源的统一纳管能力;
2支持在同一个平台展示资源、任务、调度状态;
3数据的统一管理能力;
4支持多样化的容器运行环境;
5全面、实时的监控指标。