职位描述
岗位职责
1.硬件与基础设施管理:
负责服务器硬件(戴尔/华为/浪潮等)全生命周期管理,包括选型、上架、RAID配置、故障诊断与更换,保障生产系统(MES/ERP/WMS等)硬件资源的高可用性(SLA≥99.9%)。
规划机房电力、制冷及网络架构(万兆光纤/交换机),设计灾备方案(异地容灾/双活数据中心),应对突发断电或网络中断风险。
管理多地机房安全合规基线,通过自动化工具(Ansible Tower)批量执行漏洞修复(如Log4j2漏洞24小时内全节点覆盖)。
跨国机房硬件标准化选型,建立备件库存共享机制
软件发布与部署,软件代码仓库管理
2.高可用架构与性能调优:
部署并维护负载均衡(Nginx/HAProxy)、集群架构(MySQL主从同步、Redis哨兵模式),确保ERP/MES等系统7x24小时无中断运行。
主导数据库(Oracle/MySQL/SQL Server)性能优化,包括索引重建、慢查询分析、锁竞争解决,支撑TB级生产数据高效存取。
3.安全防护与漏洞治理:
实施服务器安全基线配置(SSH加固/权限最小化),部署防火墙、入侵检测系统,定期执行漏洞扫描。
制定数据备份策略(全量 增量备份),通过定时任务实现关键数据异地冷备,确保RTO≤1小时。
4.应用部署与自动化运维:
标准化应用部署流程,完成ERP、MES等系统版本升级与补丁安装,兼容性测试覆盖Linux/Windows混合环境。
搭建监控体系(Zabbix/Prometheus Grafana),实时预警CPU过载、磁盘I/O瓶颈等问题,历史故障修复平均时效≤30分钟。
设计容器化应用(K8s集群)的多地发布流水线,实现版本灰度发布与地域差异化配置
5.应急响应与合规审计:
主导生产环境故障根因分析(RCA),编写事故报告及改进方案,年均重大故障次数≤1次。
配合ISO 27001等安全认证审计,完善操作日志(ELK集中存储)、访问控制(LDAP/AD域)等合规要求。
任职要求
1.必备经验:
学历与经验:全日制本科及以上学历,计算机、信息管理或相关专业
5年以上制造业服务器管理经验,精通Linux(CentOS/RedHat)及Windows Server系统运维,熟悉KVM/VMware虚拟化技术。
掌握数据库性能调优工具(Explain/SQL Profiler),具备TB级数据表分区、读写分离实战经验。
熟练使用Shell/Python编写自动化脚本,实现日志清理、备份校验等高频操作。
2.业务匹配:
熟悉制造业核心系统(ERP/MES等)架构,了解工单下发、物料追溯等业务对服务器性能的关键需求。
有工业实时数据库(PI Historian/InfluxDB)或边缘计算节点管理经验者优先。
有制造业全球化业务支撑经验,熟悉多国数据主权法规(如GDPR、中国等保2.0),设计机房本地化部署方案
3.个人素质
问题导向思维:能通过监控数据(如磁盘IOPS突增)预判潜在风险,制定预防性维护方案。
抗压能力:适应7x24小时应急响应,重大故障连续处理时长≥8小时仍保持逻辑清晰。
协作意识:与开发、网络团队协同解决跨系统问题(如MES与AGV调度系统通信超时)。
技术敏感度:持续跟踪云原生(K8s集群管理)、零信任安全架构等前沿技术趋势。
4.加分项
有云飞云/阿里云混合云管理经验,熟悉云桌面资源池化、算力动态分配策略。
参与过制造业等保三级认证,熟悉安全设备(堡垒机/日志审计)部署流程。
持有RHCE/OCP/CISSP等认证,具备全栈运维能力(从硬件到应用层)。
熟悉工业跨国协同场景(如墨西哥工厂MES与中国ERP数据互通)的机房网络规划