Discover Technata Job board

Find your next tech job in Kanata North, Canada’s largest technology park. Then explore endless international opportunities and dream about where your career will take you. With the Country’s largest density of technology companies ranging from promising startups to leading global giants, Kanata North is the place to be if you are serious about a career in tech.

高级IT基础设施运维工程师 - 系统可用性与SRE方向

Siemens

Siemens

Shenzhen, Guangdong, China
Posted on Sep 19, 2025
职位概述:
我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。
核心职责:
1. 系统高可用性保障:
o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。
o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。
2. 监控与应急响应:
o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。
o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。
3. 事故全生命周期管理:
o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。
o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。
4. 运维自动化与效率提升:
o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。
o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。
5. 容量规划与性能优化:
o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。
o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。
6. 系统组件的安全升级及维护:
o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。
o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
任职要求:
1. 经验:
o 5年以上互联网行业生产环境运维经验,有大型电商、金融或高并发在线服务平台运维经验者优先。
o 具备丰富的一线故障排查和应急响应经验,能处理过各类复杂的线上紧急故障。
2. 技术技能:
o 精通Linux操作系统内核、网络、性能调优及故障排查。
o 精通至少一种云平台(AWS/Aliyun/GCP) 的核心服务(EC2, VPC, RDS, S3, LB等)。
o 精通容器化技术(Docker)和编排工具(Kubernetes)。精通k8s集群管理, 如Aliyun ACK , ACP 管理能力。
o 精通监控栈: 有搭建和维护Prometheus, Grafana, Alertmanager, ELK/EFK等工具的经验。
o 扎实的网络知识: 深刻理解TCP/IP、HTTP/HTTPS、DNS、负载均衡等协议和组件。精通waf, ddos , alb 7层及4层协议的管理与配置。
o 自动化能力: 熟练使用Shell/Python/Go等至少一种语言编写运维脚本,有Ansible/Terraform等工具使用经验。‘
o 组件维护及管理: 精通但不限于nacos, kafka, rds, kafka , elasticSearch , oss, dataworks等组件的维护于管理能力。
o 网络维护: 精通vpc组网, 路由设置, 网络安全组设置, 精通k8s组网及构建集群间的网络通讯能力。
3. 软技能与素质:
o 强大的抗压能力和冷静的心理素质,能在高压下保持思路清晰,快速决策。
o 卓越的问题分析和技术复盘能力,追求根因,不满足于表面解决。
o 强烈的责任心和主人翁精神,对线上稳定性有极高的要求。
o 出色的沟通和协作能力,能清晰、准确地在故障中与开发、测试、产品等多方沟通。
加分项:
有互联网大规模SRE团队工作经验。
持有相关专业认证(如CKA, CKAD, AWS/Aliyun 专家级认证)。
有CI/CD流水线维护和优化经验。
熟悉分布式数据库(MySQL, Redis, MongoDB等)的运维和原理。
具备一定的开发能力,能够阅读Java/Go/PHP等业务代码以辅助排查问题。