职位详情
智算交付工程师(西安、成都、武汉、北京、石家庄)
面议
中移系统集成有限公司
西安
3-5年
本科
10-29
工作地址

陕西省西安市雁塔区唐延路11号

职位描述
1、负责智算中心项目的交付实施管理,根据售前顶设方案与项目合同,制定详尽的交付实施计划,明确项目范围、里程碑、资源需求与风险预案,确保项目交付目标清晰、路径可行。
2、牵头智算中心基础设施的部署与集成,主导算力集群(GPU/ASIC等)、高速网络(InfiniBand/RoCE等)、存储系统、制冷与供电等设施的现场实施、硬件安装、系统联调与集成测试,确保整体架构按设计落地。
3、负责智算平台软件与调度系统的部署与配置,完成操作系统、容器平台、作业调度系统(如Slurm/Kubernetes)、分布式存储、AI框架及监控运维平台的安装、配置与优化,实现算力资源的统一管理与高效调度。
4、主导智算集群的性能调优与稳定性保障,对交付上线的智算系统进行深度性能测试与瓶颈分析,包括但不限于算力效率、网络带宽与延迟、存储IO等,并实施针对性调优,确保系统达到或超过设计指标。
5、负责交付过程中的问题定位与解决,快速响应并处理在部署、联调及试运行阶段出现的各类硬件、软件及网络问题,协调内外部技术资源进行根因分析并推动解决,保障项目关键节点按时达成。
6、负责项目交付文档的编写与移交,整理输出包括实施计划、部署图纸、配置清单、测试报告、运维手册及培训资料等全套交付文档,并完成对客户运维团队的系统移交与技术培训。
7、协调与管理交付项目干系人,与客户IT/运维团队、内部售前/研发部门、以及硬件/软件供应商保持密切沟通,管理客户期望,汇报项目进度,协同解决交付过程中的各类问题与变更需求。
【智算网络架构与集成能力】
1、具备智算中心整体网络架构的规划与设计能力,精通高性能计算(智算)与通用计算网络的融合方案。
2、熟练掌握数据中心级交换机(智算/通算)的自动化脚本编写、独立调试及全网联合调试,具备复杂网络环境下的问题定位与解决能力。
3、能够协同服务器团队开展网络性能测试与流量调优,具备端到端性能分析与优化经验,确保网络低延迟、高吞吐。
4、拥有实际智算/通算网络项目的实施落地经验,能够独立承担从规划、部署到验收的全流程网络集成工作。
5、具备HCIE、CCIE或同等级别数通认证者优先。
【智算主机与平台工程能力】
1、熟悉智算及通用服务器设备的初始化、系统部署及标准化配置流程,具备大规模节点交付与管理经验。
2、掌握智算服务器在BIOS、固件、驱动及操作系统层面的深度参数调优,具备性能瓶颈识别与系统级优化能力。
3、精通GPU计算软件栈(如CUDA、conda环境)及容器化技术(Docker、Kubernetes),能够独立完成AI训练/推理平台的搭建与维护。
4、具备智算/通算集群实际部署经验,熟悉从硬件上架、系统配置到应用交付的完整流程。
5、持有RHCE或同类Linux系统级别认证者优先。
【工作经验】
1、智算/数据中心项目实施经验:具备3年以上智算中心、超算中心或大型数据中心项目的现场交付、系统集成或实施运维经验,主导或核心参与过至少2个从零到一建设的智算集群交付项目,并成功上线稳定运行。
2、智算网络部署与调优经验:拥有丰富的智算高速网络(如InfiniBand、RoCEv2)的部署、调试与排障经验。熟练掌握主流交换机的脚本编写、配置与管理,并能独立完成网络单点调试、全网联调及与服务器的协同打流测试与性能调优。
3、智算服务器与平台部署经验:具备丰富的智算服务器(如NVIDIA DGX/HGX系列、或主流GPU服务器)的硬件初始化、操作系统部署、固件/驱动升级及深度参数调优经验。精通CUDA、容器(Docker)、容器编排(Kubernetes)及作业调度系统在智算环境下的部署、配置与优化。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请