【岗位职责】
1、 服务器部署配置:独立完成阿里云算力服务器(含GPU/NPU集群,如ECS g/gn系列)硬件上架配置;优化异构计算环境,完成驱动、CUDA等关键配置,保障算力效率;
2、日常运维监控:负责服务器硬件检测、性能优化,保障7×24小时稳定运行;搭建维护监控体系(Zabbix/Prometheus等),监控核心指标并处理告警;
3、故障排查修复:快速定位解决软硬件故障,减少停机时间;建立故障案例库,总结优化方案;
4、系统升级维护:执行系统软件升级计划;定期漏洞扫描、补丁安装及数据备份恢复测试,保障安全;
5、资源管理优化:动态分配计算资源,优化调度提升利用率;参与集群规划,提出扩容升级建议;
6、技术支持协作:提供内部技术支持;对接阿里云及供应商处理售后;跨部门协作推进项目。
【任职要求】
1、 本科及以上,计算机、网络工程等相关专业优先;
2、1年以上算力服务器运维经验,熟悉全生命周期管理;有数据中心、云计算/AI算力经验优先;
3、精通Linux系统;熟悉主流服务器硬件及故障排查;掌握TCP/IP协议;熟练Shell/Python等脚本语言;了解Docker/K8s等技术优先;
4、 具备软硬件及网络故障快速排查能力,熟悉诊断工具,有应急响应能力;
5、具备良好沟通协作能力及技术文档撰写能力;
6、热衷新技术学习,责任心强,能抗压,保障运维质量。