职位描述
职位描述
1.通过持续的优化算法平台调度设施,涉及调度策略、资源池规划、弹性方案,提升整体的资源利用率和资源等待
体验
2.通过持续建设资源使用规范及治理,涉及规范制定、治理方案及相关sop,推进资源使用最佳实践
3.通过持续稳定性建设,涉及生产和服务阶段的监控、报警及应急处理,保障平台安全稳定运行
职位要求
1.熟悉分布式计算、存储、http/rpc、缓存、日志服务等常规中间件,并有相关排查经验
2.熟悉云原生平台kubernetes及docker容器,并有相关运维和排查经验
3.了解gpu、nvlink及相关的虛拟化,并有相关运维和排查经验
4.善于分析和解决问题,具有良好的学习和沟通能力,有团队合作精神