“通过速石平台,我们不仅获得了足够数量的GPU,操作方式也符合每个人的使用习惯,大部分人都能快速上手。”
1本地资源有限,需要给研究员合理分配GPU资源;
2使用工作站无法满足一些规模较大的模型训练的算力需求;
3实验室没有专人负责基础架构,需要进行管理并提供基本的运维监控;
4研究员希望保持GPU资源的接入方式不变。
机器人控制
Pytorch、TensorFlow、MXNet
1平台可统一管理所有算力资源,并根据管理员配置和用户申请分配资源;
2用户可在算力集群中申请多机多卡资源以满足大规模模型训练需求;
3速石将平台的管理运维操作进行了大幅简化,绝大部分操作可通过平台界面完成,简单易用;
4在GPU资源的接入上,速石提供了开箱即用的SSH和Jupyter接入,最大程度保证用户像使用工作站一样使用集群算力资源。
1对计算资源进行统一管理、监控和调度;
2平台在GPU调度上提供了非常完善的资源隔离机制和丰富的调度策略,满足了不同场景下的资源分配需求;
3在MLOps领域提供的开箱即用的环境接入能够大幅提高研究效率;
4专业服务帮助用户解决从基础架构到中间件到应用框架层的使用问题。