职位详情
GPU服务器高级运维工程师
8000-15000元
南京德乐科技集团有限公司
南京
3-5年
本科
09-05
工作地址

云峰大厦(车站东巷)23层

职位描述
1、GPU集群全生命周期管理
-负责大规模GPU集群的规划、部署、监控、优化及日常维护,保障集群高可用性。
-处理硬件故障(如GPU卡、服务器主板、电源等)及软件问题(驱动异常、系统崩溃等),确保快速响应和恢复。
2、自动化运维与工具开发
-开发运维脚本(Shell/Python/Go)及自动化工具,优化部署流程,提升资源调度效率。
-设计基于Kubernetes的GPU集群管理平台,实现用户配置、性能监控、网络策略等功能的自动化 。
3、性能调优与安全保障
-分析GPU资源利用率,优化深度学习训练、推理任务的并行计算效率,降低功耗成本。
-制定安全策略,执行漏洞扫描、日志审计、数据加密,防范网络攻击及未授权访问 。
4、跨团队协作与技术支持
-配合算法团队优化模型部署环境(如PyTorch/TensorFlow),解决框架兼容性问题。
-为业务部门提供GPU资源规划建议,支持AI训练、HPC计算、视频渲染等场景需求 。
5、文档与流程建设
-编写运维手册、故障处理指南及技术文档,推动标准化流程落地 。
任职要求
1、基础要求
-计算机、电子工程或相关专业本科及以上学历,3年以上Linux系统及GPU服务器运维经验。
-熟悉NVIDIA GPU架构(如A100/H100)及配套驱动(CUDA/cuDNN),具备多卡并行环境调试能力 。
2、技术能力
-熟悉Kubernetes集群管理,熟悉GPU资源调度框架(如NVIDIA K8s Device Plugin)。
-熟练使用Prometheus/Grafana、ELK等监控工具,具备大规模日志分析与告警处理经验 。
-掌握Ansible/SaltStack等配置管理工具,熟悉CI/CD流程及DevOps理念 。
3、加分项
-持有NVIDIA DLI认证、AWS/Azure云平台专业认证者优先 。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请