「南京雨花台区算力服务器运维工程师【阿里云】招聘」

职位详情

算力服务器运维工程师【阿里云】

1.5-2.8万

神州泰岳

南京

1-3年

本科

10-24

工作地址

江苏省南京市雨花台区凤集大道12-9号

职位描述

【岗位职责】
1、服务器部署配置：独立完成阿里云算力服务器（含GPU/NPU集群，如ECS g/gn系列）硬件上架配置；优化异构计算环境，完成驱动、CUDA等关键配置，保障算力效率；
2、日常运维监控：负责服务器硬件检测、性能优化，保障7×24小时稳定运行；搭建维护监控体系（Zabbix/Prometheus等），监控核心指标并处理告警；
3、故障排查修复：快速定位解决软硬件故障，减少停机时间；建立故障案例库，总结优化方案；
4、系统升级维护：执行系统软件升级计划；定期漏洞扫描、补丁安装及数据备份恢复测试，保障安全；
5、资源管理优化：动态分配计算资源，优化调度提升利用率；参与集群规划，提出扩容升级建议；
6、技术支持协作：提供内部技术支持；对接阿里云及供应商处理售后；跨部门协作推进项目。

【任职要求】
1、本科及以上，计算机、网络工程等相关专业优先；
2、1年以上算力服务器运维经验，熟悉全生命周期管理；有数据中心、云计算/AI算力经验优先；
3、精通Linux系统；熟悉主流服务器硬件及故障排查；掌握TCP/IP协议；熟练Shell/Python等脚本语言；了解Docker/K8s等技术优先；
4、具备软硬件及网络故障快速排查能力，熟悉诊断工具，有应急响应能力；
5、具备良好沟通协作能力及技术文档撰写能力；
6、热衷新技术学习，责任心强，能抗压，保障运维质量。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕