一、工作职责
1. 负责GPU算力集群网络架构的规划、部署与维护,包括管理网络、业务网络及高速互联网络。负责以太网/InfiniBand/RoCE等的配置、优化与故障排查,保障GPU节点、存储节点、管理平台之间的高可靠、低时延网络通信。
3. 编写和维护网络架构文档、配置文档及运维手册。
2. 参与算力集群网络性能调优,定位和解决分布式训练、推理场景下的网络瓶颈问题,配合运维监控团队,制定网络相关监控指标、告警规则及应急处理流程。
二、任职要求
1. 本科及以上学历,计算机、通信工程、网络工程等相关专业优先,3年及以上数据中心网络或企业级网络运维经验,有InfiniBand、RoCEv2、Mellanox/NVIDIA网络设备运维经验者优先。
2. 熟悉TCP/IP、VLAN、BGP、链路聚合、网络冗余等基础网络技术,具备较强的网络故障定位与分析能力,能够快速恢复网络服务。
3. 具备CCIE/HCIE或同等水平网络专业认证,有IBTA认证者优先。
三、薪资待遇
税前每月15K-20K,具体待遇面议