一、岗位职责
1、 消息中间件全生命周期运维:负责主流消息中间件(如Kafka、RabbitMQ、RocketMQ等)的安装部署、环境配置、版本升级与日常巡检,确保服务高可用和稳定运行,建立完善的运维文档与操作规范;
2、 消息中间件系统环境运维:能够为基于容器化(K8S)和传统物理机 / 虚拟机部署的消息中间件系统运行环境提供运维支持,涵盖集群部署、编排管理、资源调度及运维优化等核心工作,确保不同部署架构下消息服务的高可用与稳定性;
3、 性能调优与故障处理:持续监控消息中间件集群运行状态,分析性能瓶颈,开展参数调优、资源优化工作;快速响应并解决生产环境中的各类故障(如消息积压、连接异常、集群故障等),制定应急预案并定期演练;
4、 团队协作与问题定位:协助应用工程师进行与消息中间件相关的业务问题定位、调试与优化,提供技术支持与解决方案;配合开发、测试团队完成项目上线、版本迭代中的消息中间件环境适配工作;
5、 参与运维体系技术建设:参与构建消息中间件运维自动化、监控告警体系,推动运维流程标准化、工具化,提升运维效率与故障响应速度;定期进行运维风险评估,提出安全加固与优化建议。跟踪消息中间件、容器化等相关技术动态,引入最佳实践;开展内部技术分享,协助团队提升整体运维技术能力。
二、任职要求
基本要求
1、 本科及以上学历,计算机相关专业,2年及以上系统运维或消息中间件运维工作经验;
2、 具备扎实的Linux系统运维基础,熟练掌握Shell、Python等至少一种脚本语言,能独立编写运维自动化脚本;
3、 熟悉TCP/IP协议、网络配置、存储架构等基础技术,具备良好的问题分析与故障排查能力,能快速定位线上复杂问题;
4、 具备良好的沟通协调能力、责任心强,能承受一定的工作压力,具有跨团队协作能力。
核心技能要求
1、 精通至少一种主流消息中间件(Kafka为首选)的原理、架构、安装配置、调优及故障处理,具有大规模集群运维经验者优先;
2、 具备消息中间件性能优化实战经验,能根据业务场景调整参数、优化队列设计、解决消息积压、消费者阻塞等常见问题;
3、 了解分布式系统原理,具备分布式环境下的运维思维,能应对分布式集群的高可用设计与故障处理。
三、优先条件
1、 有K8S环境运维经验,熟练使用kubectl、Helm等工具,能基于K8S部署、管理消息中间件集群者优先;
2、 有大规模Kafka集群运维经验,熟悉Kafka分区策略、副本机制、数据备份与恢复、监控告警体系搭建者优先;
3、 具备运维自动化、监控体系搭建经验(如使用Prometheus、Grafana、ELK等工具)者优先;
4、 持有云厂商(阿里云、腾讯云、AWS等)相关认证或容器化、消息中间件相关认证者优先;