职位描述
【岗位职责】
1、K8s集群全生命周期管理:负责大规模K8s集群的规划、部署、升级及灾备,主导资源调度优化,确保业务的高可用与稳定性。
2、可观测性体系建设:搭建并维护覆盖基础设施至应用粒度的监控与日志平台,实现故障秒级告警、根因定位及海量日志的高效检索。
3、自动化与CMDB建设:推行IaC(基础设施即代码)实现环境一键交付;建设动态CMDB,确保资产数据实时准确,支撑成本核算与容量规划。
4、平台化开发:基于CRD/Operator模式定制开发自动化组件,将运维经验代码化,提升平台自动化水平。
5、AI算力支持:负责GPU节点的基础运维与故障排查,协助算法团队解决容器化训练中的资源与环境问题。
【任职要求】
1. 硬性门槛
统招本科及以上学历,3–5年运维/SRE经验,其中至少3年K8s生产环境实战经验。
核心技能:精通K8s架构原理,必须具备 Python 或 Go 开发能力,有 CRD、Controller 或 Operator 实际开发经验。
2. 技术栈要求
可观测性:精通 Prometheus/Grafana 监控体系及 ELK/Loki 日志栈的搭建、调优与告警治理。
云与资产:熟悉主流公有云(华为/腾讯/阿里)产品,有CMDB系统设计或维护经验优先。
3. 加分项(AI方向)
熟悉 Volcano、KubeFlow、MLflow 等至少一种MLOps工具。
了解GPU驱动、CUDA环境及多卡通信原理,有AI训练场景支持经验。