岗位职责:
- 主导超大规模AI数据中心的网络架构设计与实施,包括高性能网络协议优化(如RDMA、RoCE、CXL等)、算网一体架构设计及网络虚拟化技术应用;
- 构建软硬件协同的高性能网络解决方案,覆盖DPU/SmartNIC可编程网络开发、SONiC/P4网络协议栈优化;
- 设计AIDC网络性能评估体系,针对网络吞吐量、传输时延、容错性等核心指标进行调优;
- 制定网络运维规范与容灾方案,主导Zabbix/Ansible等工具链的自动化运维体系建设;
- 研究AI/HPC场景下的网络前沿技术(如量子通信、光互连技术),推动下一代算力原生网络落地。
技能要求:
- 核心技术能力:
• 精通数据中心网络架构,具备大规模AI/HPC网络(≥10,000节点)设计经验;
• 掌握集合通信技术(NCCL/MPI/Gloo)与拥塞控制算法(DCQCN/UEC)的深度调优;
• 熟悉网络可编程技术(P4/DOCA)及智能网卡硬件加速方案;
• 具备Tier标准、ITIL规范等数据中心网络建设标准落地经验。 - 工程能力:
• 熟练使用C/C++开发高性能网络组件,5年以上系统级网络协议开发经验;
• 精通Linux内核网络模块调试,熟悉网络性能分析工具(Perf/BPF);
• 掌握TCP/IP协议栈优化及网络安全防护体系设计。
加分项:
• 熟悉深度学习框架(PyTorch/TensorFlow)与AI模型训练网络需求;
• 具有网络碳排放优化经验(CUE指标管理);
• 具备团队管理经验及AI行业技术趋势洞察能力;
• CCIE/HCIE等认证者优先
学历要求:
• 计算机/通信/电子工程本科及以上学历,具备CCIE/HCIE等认证优先。