职位描述
岗位职责:
1.对核心系统规划设计、部署、运行进行全局管理;
2.系统运行监控,包括针对业务场景、资源组件、应用程序以及服务设计和部署全面的监控;
3.故障预防与处理,通过分析监控数据、日志文件和系统架构,识别潜在的故障风险点,制定改进措施以防止类似故障再次发生;
4.运用各种性能分析工具和技术,对系统的性能进行深入分析,根据性能分析的结果,采取相应的改进措施;
5.编写自动化脚本和工具,实现系统的自动化部署、配置管理、监控、故障恢复以及其他日常运维支持场景。
任职要求:
1.本科及以上学历,计算机相关专业;
2.熟悉 Linux 操作系统,熟悉至少一种编程语言(如 Java、Python、Shell 等);
3.熟悉常见的应用服务器(如 Tomcat、Nginx 等)和数据库(如 Oracle、Mysql、高斯、PG等);
4.具有大规模在线服务系统架构设计和稳定性保障经验者优先;
5.具有大规模集群问题排查、性能优化、可观测性建设经验优先;
6.具有大规模主机或集群运维及治理经验者优先;
7.具有良好的沟通能力和团队合作精神,能够承受工作压力;