职位详情
政企技术经理
2-3万·14薪
浙江移动数智科技有限公司
杭州
不限
本科
10-17
工作地址

浙江移动数智科技有限公司

职位描述
(一)岗位职责
1、硬件部署与集成:基于售前顶层设计方案与项目合同,主导制定行业一流的交付实施计划(含风险预判模型与资源配置方案)。牵头超大规模智算中心(千卡级及以上集群)基础设施部署与集成,独立统筹算力集群、高速 RDMA 网络、全闪存存储系统、高密度制冷与冗余供电等核心设施的现场实施,主导跨厂商硬件兼容性测试、系统联调与集成验证。
2、软件配置与优化:负责定制化智算平台软件与调度系统的架构搭建、部署配置,主导完成操作系统内核优化、容器平台(K8s)高可用集群搭建、高性能作业调度系统(如 Slurm/LSF)定制开发、分布式存储(如 Ceph)性能调优、AI 框架(TensorFlow/PyTorch)适配优化。
3、性能调优与稳定性保障:构建智算系统全维度性能测试体系(含算力、网络带宽 / 延迟、存储 IOPS / 吞吐量等核心指标),运用专业工具(如 Perf、NVIDIA DCGM)进行深度瓶颈分析,主导制定并落地针对性调优方案(如 GPU 集群通信优化、存储分级缓存策略调整),确保系统性能超越设计指标 10%-15% ,且 7×24 小时稳定运行率达 99.99%。
4、问题解决与协调:作为技术核心,快速响应并牵头解决部署、联调及试运行阶段的重大技术难题(如跨架构硬件兼容性故障、大规模集群网络拥塞、软件栈深度适配问题),统筹协调内外部头部技术资源(如厂商专家、高校科研团队)进行根因分析。
5、项目交付支撑:主导构建标准化交付文档体系,输出具备行业参考价值的实施计划、部署图纸、配置清单、测试报告(含性能对比分析)、运维手册(含故障应急响应流程)及培训资料,牵头完成客户运维团队的体系化技术培训。
(二)任职要求
1、教育背景:985硕士研究生及以上学历优先,通信工程、电子信息工程、计算机科学与技术、软件工程等相关专业。
2、工作经验:具备智算中心、超算中心或大型数据中心项目交付、系统集成实际操作经验。主导过至少 2 个从零到一建设的千卡级及以上智算集群交付项目(需含 GPU/NPU 混合架构),具备千卡以上集群进行大模型训练,微调,推理的参数面优化经验。有省级重点智算项目(如政务智算中心、AI 大模型训练集群)核心交付经验者优先。具备互联网大厂工作经验优先。
3、网络技术:精通数通网络理论与实践,深入掌握 TCP/IP、HTTP、RoCEv2、IB 等协议原理及优化方案,能独立完成超大规模智算中心网络架构(含 Spine-Leaf 拓扑、RDMA 网络)的规划与设计;熟练使用 Python/Ansible 编写数据中心级交换机自动化部署脚本,具备万兆 / 四十万兆网络独立调试、全网联合调试及故障定位能力,曾主导解决过大规模集群网络拥塞、延迟超标等核心问题。
4、硬件知识:精通 X86/ARM 架构服务器(如华为 TaiShan、浪潮 NF 系列)、SAN 存储(如 EMC VMAX)、分布式存储(如 Ceph、GlusterFS)技术原理与部署优化;深入掌握主流算力厂商(NVIDIA、华为昇腾、寒武纪)GPU/NPU 产品技术细节(如算力卡型号差异、集群互联方案),能独立评估并选型适配不同业务场景的硬件解决方案,曾主导过跨厂商硬件混合部署的技术攻坚。
5、软件与平台:精通 Windows Server、Linux Server(CentOS/Ubuntu/RedHat)系统运维与内核优化;熟练使用 Shell/Python(需具备至少 1 个自主开发的运维工具或自动化脚本项目经验)。精通 OpenStack 云平台(含 Nova、Neutron、Cinder 模块)、Docker/K8s 容器技术的部署、调优与故障排查,熟悉大模型训练推理的分布式计算框架,具备大规模容器集群(千节点级)运维经验。熟悉 AI 框架(TensorFlow/PyTorch/MindSpore)部署与优化,有 AI 训练任务调度效率提升项目经验者优先。
6、认证证书:持有HCIE-Data Center/Cloud/Storage、CCIE Data Center 、RHCE/RHCA、NVIDIA DCAT 等专业认证优先;有云计算、AI 算力相关专利或核心技术论文(第一作者)者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请