职位描述
工作职责:
1、规划、设计和实现AI集群GPU/NPU间高性能通信协议及软硬件;
2、规划、设计和开发基于scale-up和scale-out互连的高性能计算系统如超节点等;
3、分析、改进、优化主流开源集合通信库及训练推理框架中的通信系统。
岗位要求:
1、计算机或相关专业硕士及以上学历,有5年以上互连通信或相关研发经验;
2、熟悉计算机体系结构和并行计算基本原理,熟悉计算机网络协议栈;
3、精通Linux环境下的C/C++编程,有独立定位和修复互连通信问题的能力;
4、熟悉Profiling工具,有互连通信性能瓶颈分析和调优经验。
优先项:
1、熟悉NCCL、MPI等集合通信库;
2、熟悉CUDA、ROCm等基础软件栈及开发运行环境;
3、熟悉Pytorch、SGLang等主流开源训推框架;
4、熟悉Deepseek等主流大模型相关结构和算法;
5、熟悉GPU、NPU等AI芯片及AI服务器或AI集群。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕