“推理平台重构之后,业务变动更加灵活,GPU也形成了一个大的资源池供我们灵活调配。同时,后台的监控数据帮我们确认了不同类型业务的资源需求,便于我们未来业务扩展的时候进行规划。”
1GPU资源有限且资源利用率不高,难以支撑快速增长的业务需求;
2缺乏IT人员,难以针对所有GPU资源、任务进行监控和告警;
3现有推理平台较为陈旧,无法根据模型规模自动分配资源,导致大量珍贵的GPU资源浪费。
实时推理
基于Yolo v5的图形检测应用
1重构实时推理平台,相同规模的GPU集群所支撑的业务规模提升40%;
2提供基于任务的监控告警功能,故障响应及排查效率从小时级提升到分钟级。
1平台可面向模型提供可伸缩的推理服务;
2GPU资源池化,可更灵活地根据业务分配资源;
3平台可支持在单个检测任务中并发多个推理子任务。