职位详情
运维工程师
2-3万·13薪
上海金亥数智科技有限公司
上海
1-3年
本科
10-22
工作地址

中国电信信息园2

职位描述
岗位职责:
负责大规模AI集群的日常部署、监控、运维和故障排除,保障服务的可用性与稳定性
响应和处理硬件(GPU、服务器、交换机),软件(驱动、CUDA、操作系统)和网络(交换机与网卡配置)的各类故障,需要在节假日和夜间值班。
监控和分析集群性能,包括GPU利用率、网络带宽和延迟、存储IO等
建立和完善集群的SLA、监控告警体系和容灾预案,完善运维流程与规范
开发和维护自动化运维工具和脚本(使用Ansible, Python等),实现集群部署、配置管理,提升运维效率
岗位要求:
计算机科学、电子工程或相关专业本科及以上学历者优先(985/211)。
有Linux、计算机网络、操作系统原理、容器技术(Docker, Containerd)、Shell/Python基础。
工作认真负责,有良好的服务意识与团队合作意识。
有较强的问题分析与解决能力,学习能力与沟通能力强
有3年以上大规模Linux系统运维经验,有千卡以上GPU集群或HPC集群运维经验者优先
熟悉TCP/IP协议栈,有InfiniBand或RoCE等高性能网络运维经验者优先

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请