“有些功能还是很好用的,比如实验管理、超参调优、分布式训练,这些ML相关功能让我们可以更专注在模型本身而非工程实践上。”
1不同开发团队之间共享GPU服务器,服务器的资源分配目前是手动完成,效率很低且管理复杂;
2开发环境管理混乱,且由于网络限制,许多依赖安装流程繁琐,影响开发团队效率;
3由于手动管理,所有GPU服务器的使用情况没有监控,无法得知资源的使用效率;
4实验管理、超参数调优、分布式训练等需求无法满足。
嵌入式环境模型开发
Pytorch、TensorFlow、MXNet
1平台可统一管理所有算力资源,并实现了资源调度和分配的自动化;
2平台具备环境管理能力,提供大量预置环境模板,并允许用户自定义环境模板,以此进行标准化开发和训练环境;
3丰富的监控功能允许用户从任务视角、管理员从全平台视角了解各类资源的历史使用率;
4提供实验管理、超参数调优、分布式训练功能,使得用户更高效地进行实验记录追踪、自动调参,并且帮助用户成功运行一些以前无法运行的大规模模型。
1帮助用户管理异构的GPU服务器集群;
2GPU调度功能结合环境管理功能对用户日常工作中的非核心业务实现了自动化和简化;
3平台提供的监控功能帮助企业合理评估资源使用情况,并规划GPU服务器的用量;
4MLOps相关功能可帮助研发团队提高效率。