职位详情
GPU服务器二线运维工程师
2.5-3.5万
京源环保
上海
10年以上
硕士
06-05
工作地址

模速空间(SMC)

职位描述
岗位职责:
1. 复杂故障深度诊断
(1) 针对搭载NVIDIA H100/H800/H200、AMD MI300等高端GPU的服务器,快速定位并修复硬件级故障(如GPU核心损坏、HBM显存异常、PCIe链路中断),熟练使用示波器、逻辑分析仪等工具进行电路级分析。
(2)处理CUDA环境崩溃、驱动兼容性冲突等软件问题,优化AI框架(PyTorch/TensorFlow)在多GPU集群中的运行稳定性。
2. 性能调优与架构设计
(1) 基于AI大模型训练/推理场景,通过NVLink/NVSwitch配置、NCCL通信优化、内存带宽调优(如HBM2E/HBM3带宽绑定)提升集群算力利用率,目标达成硬件峰值算力的90%以上。
(2) 设计混合精度训练方案(FP16/FP8/INT8),结合Tensor Core特性实现算子级优化(如Conv/GEMM稀疏化),降低训练能耗比。
3. 云原生集群管理
(1) 主导Kubernetes GPU资源调度系统的落地,实现万卡级集群的故障自愈(如节点宕机自动迁移、GPU硬件健康状态实时监控),保障训练任务中断率低于0.5%。
(2)开发自动化工具链(Ansible/Terraform),实现服务器固件升级、驱动部署、日志采集的全流程无人化。
4. 前沿技术落地与协作
(1) 参与Blackwell架构GPU(如H200)的预研测试,验证其在Transformer模型训练中的性能表现,输出硬件选型建议。
(2) 与芯片设计团队协作,针对国产GPU(如摩尔线程MTT S80)进行驱动适配和性能调优,构建国产化算力替代方案。
任职要求:
1. 硬件与系统深度经验
(1) 5年以上GPU服务器运维或研发经验,至少主导过3个以上H100/A100集群的部署优化项目,熟悉GPU散热设计、机房环动和电源管理(12VHPWR接口兼容性)。
(2) 精通Linux内核调优(如NUMA节点绑定、IRQ亲和性),能通过Nsight Compute分析CUDA内核性能瓶颈,提出寄存器分配、共享内存优化方案。
2. 云原生与分布式技术
(1) 熟练掌握Kubernetes Device Plugin机制,具备GPU虚拟化(如vGPU)和混部场景下的资源隔离经验,曾主导过超大规模集群(5000+节点)的稳定性保障工作。
(2) 熟悉InfiniBand网络配置(如ConnectX-6/7网卡),能通过OPA驱动优化RDMA通信延迟至微秒级,支持分布式训练中的跨节点数据同步。
3. 正向考核适配能力
(1) 具备强结果导向思维,过往绩效中至少3次超额完成技术指标(如集群GPU利用率提升20%以上、故障恢复时间缩短50%)。
(2) 英语流利(CET-6或等同水平),能独立对接海外团队完成技术方案落地,适应全球数据中心的短期出差(年均20%)。
4. 加分项
(1) 持有NVIDIA认证CUDA工程师(CCE)或Kubernetes认证管理员(CKA)资质。
(2) 参与过开源项目(如KubeEdge边缘计算、Horovod分布式训练框架)贡献者优先。
岗位亮点:
• 接触全球先进的AI算力基础设施(如H200 GPU集群)。
• 参与国家级算力网络建设项目,与中科院、高校联合攻关核心技术。
• 扁平化管理架构,技术决策直接影响公司战略方向。
职业发展路径:
• 技术专家线:高级工程师→GPU架构师→AI基础设施总监(管理50人+团队)。
• 业务融合线:技术顾问→行业解决方案专家(覆盖金融/医疗/自动驾驶/环保等领域)。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请