职位详情
GPU服务器测试工程师
3-5万·14薪
青云云计算有限公司
北京
5-10年
本科
04-19
工作地址

北京市-海淀区-知春路1号8-808

职位描述
岗位职责

1. 兼容性测试:制定并执行GPU服务器全组件兼容性测试方案,涵盖GPU(如NVIDIA A和H系列、昇腾系列、寒武纪系列等)、CPU、内存、存储、网络等硬件,以及CUDA、cuDNN、操作系统(Linux/Windows)、AI框架(PyTorch、TensorFlow等)的兼容性测试,定位并解决组件间的冲突问题。

2. 性能测试与优化:设计并实施AI大模型训练与推理场景下的性能测试用例,包括吞吐量、延迟、能效比等指标分析;基于测试结果提出硬件选型优化建议(如GPU集群拓扑调整、内存带宽升级)与软件配置优化方案(如AI框架参数调优、分布式训练策略改进)。

3. AI大模型部署:负责在GPU服务器上完成主流AI大模型(如LLaMA、Deepseek等)的部署、调优与测试,确保模型在服务器环境中的高效运行。

4. 性能评估与分析:建立AI大模型训练和推理场景下的GPU服务器性能评估体系,通过基准测试(如MLPerf)、压力测试等手段,输出专业性能评估报告;结合业务需求,为服务器采购、架构设计提供数据支撑。

5. 技术创新与协作:跟踪GPU技术、AI框架、大模型算法的最新进展,探索新技术在服务器测试中的应用。

任职要求

1. 学历与经验:计算机、电子信息、人工智能等相关专业本科及以上学历;5年以上GPU服务器测试经验,3年以上AI大模型训练或推理场景下的测试与优化经验。

2. 技术能力:

- 精通GPU服务器硬件架构(PCIe、NVLink、高速网络)与组件兼容性测试方法,熟悉主流GPU型号的特性与性能瓶颈。

- 熟练使用性能测试工具,具备深度性能分析与调优能力; 掌握GPU测试方法及原理,掌握了解P2P、GPU虚拟化、NCLL等测试;熟悉了解MLPerf、CNN模型、Transformer等模型,了解深入学习、机器学习测试方法,掌握模型量化、剪枝等优化技术。

- 熟悉Linux系统内核、资源调度机制,具备系统级性能问题定位能力。

3. 项目经验:主导过AI大模型(如Transformer架构)在GPU集群上的训练/推理性能测试项目,成功解决过至少2个以上的性能优化案例。

其他要求:具备良好的逻辑分析与问题解决能力;有优秀的跨团队协作与沟通能力;对新技术有强烈探索欲,能快速学习和适应行业变化;持有相关认证(如NVIDIA认证、MLPerf认证)者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请