1-1.5万
高铁新城开泰路18号
岗位职责
1. 负责产品线上基础设施的规划、搭建与日常运维(云服务器、GPU 集群、对象存储、CDN)
2. 设计并维护 CI/CD 流水线,实现代码自动构建、测试、部署
3. 搭建和维护 容器化平台(Docker / Kubernetes),管理微服务编排与弹性伸缩
4. 构建可观测性体系:日志收集、指标监控、链路追踪、告警系统
5. 负责 GPU 推理集群
的调度与资源管理,优化 AI 模型推理服务的资源利用率
6. 制定灾备方案和安全策略,保障数据安全与服务连续性(目标 99.9% SLA)
7. 管理音频文件存储架构,优化大文件上传/下载链路的性能与成本
8. 协助开发团队排查线上问题,优化系统性能瓶颈
任职要求
必备技能
- 3
年以上运维 / DevOps / SRE 相关经验
- 精通 Linux 系统管理与性能调优
- 熟练使用 Docker 及容器编排工具(Kubernetes / Docker Compose)
- 有主流云平台实操经验(AWS / 阿里云 / 腾讯云
至少一种)
- 熟悉 CI/CD 工具链(GitHub Actions / GitLab CI / Jenkins)
- 熟悉基础网络知识(TCP/IP、DNS、负载均衡、反向代理 Nginx)
- 掌握至少一门脚本语言(Bash / Python / Go)
- 有监控系统搭建经验(Prometheus + Grafana / Datadog /
云厂商监控)
加分项
- 有 GPU 集群运维
经验(NVIDIA 驱动、CUDA、容器 GPU 调度)
- 熟悉 Terraform / Pulumi 等 IaC(基础设施即代码)工具
- 有大规模 对象存储(S3 / OSS)运维及成本优化经验
- 了解音视频处理基础设施(转码集群、流媒体分发)
- 有 Kubernetes GPU 调度(nvidia-device-plugin、GPU 共享/虚拟化)经验
- 熟悉安全合规实践(WAF、DDoS 防护、数据加密、等保)
- 有 SaaS 产品多区域部署经验
- 了解 Istio / Envoy 等服务网格技术
个人素质
- 有较强的自动化思维,"能用代码解决的不手动操作"
- 具备故障应急响应能力,能在压力下快速定位和解决问题
- 注重文档化和标准化,能制定运维规范
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕