职位详情
AI集群网络工程师
2-3万
深圳市润迅数智科技有限公司
深圳
3-5年
本科
01-29
工作地址

泰然立城A座

职位描述
岗位职责:
1.负责算力集群高速网络的现场部署与深度调试,包括网络拓扑实现、交换机配置、性能基准测试及故障排除。
2.主导集群系统级性能分析与优化,定位并解决从硬件(GPU/CPU)、网络(延迟/带宽)到存储(并行文件系统)的全链路性能瓶颈。
3.编写和维护自动化脚本与工具(如Ansible/Python),实现大规模服务器集群的系统配置、驱动部署、监控集成等任务的标准化与自动化。
4.快速响应和解决在集成、压力测试及运维阶段出现的复杂技术问题,保障集群稳定高效运行。
5.输出项目实施文档、性能调优报告、模型调优报告、运维手册,并对客户团队进行关键技术转移与培训。

岗位要求:
1.本科及以上学历,计算机、网络工程相关专业,3年以上数据中心/AI集群的现场实施或高级运维经验。
2.精通InfiniBand或高性能以太网技术,具备主流厂商交换机的实际配置与排错能力。
3.熟练掌握主流操作系统,具备使用自动化工具(Ansible/SaltStack 等)进行大规模环境部署的能力,熟悉基础监控栈(如Prometheus/Grafana)。
4.具备扎实的系统性能分析与调优技能,熟悉相关性能工具(如perf, nvidia-smi, ibstat等),能独立开展性能压测与瓶颈分析。
5.有华为一体机或超融合集群的交付调优经验者优先;熟悉Slurm/K8s等调度系统者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请