职位描述
 (一)岗位职责
1、硬件部署与集成:根据售前顶设方案与项目合同,制定详尽的交付实施计划。牵头智算中心基础设施的部署与集成,主导算力集群、高速网络、存储系统、制冷与供电等设施的现场实施、硬件安装、系统联调与集成测试,确保整体架构按设计落地。
2、软件配置与优化:负责智算平台软件与调度系统的部署与配置,完成操作系统、容器平台、作业调度系统、分布式存储、AI 框架及监控运维平台的安装、配置与优化,实现算力资源的统一管理与高效调度。
3、性能调优与稳定性保障:对交付上线的智算系统进行深度性能测试与瓶颈分析,包括算力、网络带宽与延迟、存储 IO 等,并实施针对性调优,确保系统达到或超过设计指标。
4、问题解决与协调:快速响应并解决在部署、联调及试运行阶段出现的各类硬件、软件及网络问题,协调内外部技术资源进行根因分析并推动解决,保障项目关键节点按时达成。
5、项目交支撑:整理输出包括实施计划、部署图纸、配置清单、测试报告、运维手册及培训资料等全套交付文档,并完成对客户运维团队的系统移交与技术培训。
(二)任职要求
1、教育背景:本科及以上学历,通信工程、电子信息、计算机等相关专业。
2、工作经验:具备智算中心、超算中心或大型数据中心项目交付、系统集成或实施运维经验,主导或核心参与过至少 2 个从零到一建设的五百卡规模智算集群交付项目,并成功上线稳定运行。
3、网络技术:熟悉数通网络知识,了解 TCP/IP、HTTP、RoCE 等协议,熟悉大规模 IDC 及骨干网架构。具备智算中心整体网络架构的规划与设计能力,熟练掌握数据中心级交换机的自动化脚本编写、独立调试及全网联合调试。
4、硬件知识:熟悉 X86 服务器、ARM 服务器、SAN 存储、分布式存储技术,熟悉智算基础设置,包括 GPU/NPU 等典型算力厂商的产品技术以及解决方案。
5、软件与平台:熟悉 Windows Server,Linux Server 的运维,能熟练使用 shell/Python 中的至少一种脚本语言。熟悉 openstack、docker 云平台及容器,具有云平台部署和运维经验。
6、认证证书:具备 HCIE、CCIE 或同等级别数通认证,或持有 RHCE 或同类 Linux 系统级别认证者优先。
  以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕