岗位职责:
1. NVIDIA和AMD GPU 故障排查分析和与厂商配合解决故障
2. GPU相关故障整理和汇总
3. GPU厂商FA报告评审
4. PCIe 或者 OCP 网卡(包含DPU等)的故障排查分析、与厂商配合解决故障
5. 网卡相关故障整理和汇总
6. 网卡厂商FA报告评审
7. 部件Firmware管控
8. 配合其它一些C语言功能代码实现
应征要求:
1. 计算机/电子/通信等相关专业本科及以上学历
2. 熟练掌握C语言及shell或者python
3. 至少4年以上服务器GPU测试经验或者网卡、DPU测试经验
4. 熟练掌握GPU各种测试工具使用,如Nvqual,DCGM, Fieldiag等,熟练解析测试log,定位测试异常点
5. 熟练掌握网卡/DPU各种测试和监测工具使用,如iperf, iperf3等,熟练解析测试log,掌握TCP/IP协议,熟练使用网络抓包分析和定位问题
6. 对于GPU性能和网卡、DPU性能等常见问题有专业的分析方法和调优方法
7. 熟练掌握嵌入式Linux下的多任务编程及调试
8. 能够独立完成模块的设计,实现和调试
9. 熟悉外设常用的通信协议:I2C, MCTP, PCIe, NVMe
10. 熟练掌握Linux OS使用者佳