职位详情
运维工程师
8000-16000元
山海迹信息科技(大连)有限公司
大连
5-10年
大专
01-26
工作地址

虹源大厦1706

职位描述
一、岗位职责
1、整体系统稳定性与可用性设计
- 负责线上系统的稳定性架构设计与持续优化
- 建立服务可用性目标(SLA / SLO / Error Budget)并推动落地
- 从架构层面减少单点故障、级联故障与不可控风险
2、云基础设施与网络架构治理
- 设计与管理云端基础设施(ECS / ALB / 高防 / VPC / 安全组)
- 规划清晰的公网 / 内网边界,落实最小暴露面与最小权限原则
- 参与容量规划与资源评估
3、服务发布与变更风险控制
- 设计并优化发布策略(灰度发布、回滚机制、发布窗口控制)
- 建立变更前评估、变更后验证与问题复
4、数据库与缓存的高可用与性能保障
- 负责 MySQL(主从/读写分离)与 Redis(高可用/集群)的稳定性设计
- 制定备份、恢复与演练机制,确保数据安全可控
- 协同研发团队,优化连接池、超时、限流与降级策略
5、可观测性体系建设
- 建立和维护监控、日志、告警体系(主机 / 服务 / DB / Cache)
- 设计高信噪比告警规则,减少无效告警与“告警疲劳”
6、安全与运维治理
- 设计并维护运维访问体系(堡垒机 / 审计 / 身份与权限管理)
- 管理证书生命周期、密钥安全、运维操作审计
- 参与安全事件分析与应急响应流程建设
- 推动工程化与自动化
- 推动基础设施即代码(IaC)与运维自动化

二、任职要求
1、系统与运维经验
- 有 5 年及以上 Linux 服务器 / 云环境运维或 SRE 经验
- 要求熟悉K8s+Docker集群部署、管理
- 实际负责/主导过 线上生产系统的稳定性保障
- 能独立定位并处理复杂线上问题(性能抖动、偶发故障、资源争抢)
2、云与网络基础
- 熟悉主流云平台(阿里云 / 腾讯云 / AWS 等)
- 熟悉网络基础原理(TCP/IP、连接、负载均衡、NAT、DNS)
- 能从网络与系统层面分析性能瓶颈,
- 稳定性与风险意识
3、数据库与缓存经验
- 有 MySQL、Redis 等核心组件的运维与稳定性经验
- 理解主从复制、读写分离、缓存一致性与雪崩风险
4、沟通与影响力
- 能清晰地向研发、产品解释稳定性相关决策与取舍
- 有推动规范、流程或技术决策落地的能力

三、加分项
有 SRE / 平台工程 实践经验,理解错误预算、容量预测等理念

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请