职位描述
岗位职责
1负责具身智能数据平台的部署配置监控升级与性能调优,保障平台高可用性与数据可靠性。
2设计并实施数据平台的监控体系,实现系统级资源(CPU内存磁盘网络)与服务状态的实时监控与告警。
3负责容器化平台建设与运维,进行集群部署服务编排弹性扩缩容故障排查与资源调度优化。
4主导或参与生产环境重大故障(如集群宕机数据丢失性能瓶颈)的应急响应根因分析与系统复盘,制定并落实改进措施,提升系统稳定性。
5建立和完善平台运维文档体系,推动运维流程标准化自动化与智能化,提升团队整体运维能力。
任职要求
1计算机软件工程信息技术或相关专业本科及以上学历,3年以上大数据平台云计算平台或企业级IT系统运维管理经验。
2精通主流大数据存储与计算平台,具备 MinIOCephHadoopIoTDBStarRocks
等至少两种系统的实际部署调优与故障处理经验。
3具备扎实的系统监控与性能调优能力,熟练使用 PrometheusGrafanaZabbix 等监控工具,能够快速定位并解决系统瓶颈。
4熟练掌握 Docker 容器技术,深入理解 Kubernetes 架构,具备 K8s 集群的部署管理服务发布扩缩容及故障排查实战经验。
5熟悉 Linux/Unix 操作系统,具备扎实的系统管理能力,能熟练编写 Shell 或 Python 脚本实现运维自动化。
6有参与数据平台数据湖或湖仓体平台建设项目经验,在平台架构设计高可用方案运维体系建设中承担关键角色。
7具备良好的沟通协作能力责任心和抗压能力,能够跨团队协作推动复杂问题解决。
加分项:
1有AI训练平台机器人数据平台自动驾驶数据基础设施运维经验者优先。
2熟悉 CI/CD 流程具备 DevOps 实践经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕