「杭州拱墅区政企技术经理招聘」_2026年浙江移动数智科技有限公司招聘-智联招聘

职位详情

政企技术经理

2-3万·14薪

浙江移动数智科技有限公司

杭州

不限

本科

01-01

工作地址

浙江移动数智科技有限公司

职位描述

（一）岗位职责
1、硬件部署与集成：基于售前顶层设计方案与项目合同，主导制定行业一流的交付实施计划（含风险预判模型与资源配置方案）。牵头超大规模智算中心（千卡级及以上集群）基础设施部署与集成，独立统筹算力集群、高速 RDMA 网络、全闪存存储系统、高密度制冷与冗余供电等核心设施的现场实施，主导跨厂商硬件兼容性测试、系统联调与集成验证。
2、软件配置与优化：负责定制化智算平台软件与调度系统的架构搭建、部署配置，主导完成操作系统内核优化、容器平台（K8s）高可用集群搭建、高性能作业调度系统（如 Slurm/LSF）定制开发、分布式存储（如 Ceph）性能调优、AI 框架（TensorFlow/PyTorch）适配优化。
3、性能调优与稳定性保障：构建智算系统全维度性能测试体系（含算力、网络带宽 / 延迟、存储 IOPS / 吞吐量等核心指标），运用专业工具（如 Perf、NVIDIA DCGM）进行深度瓶颈分析，主导制定并落地针对性调优方案（如 GPU 集群通信优化、存储分级缓存策略调整），确保系统性能超越设计指标 10%-15% ，且 7×24 小时稳定运行率达 99.99%。
4、问题解决与协调：作为技术核心，快速响应并牵头解决部署、联调及试运行阶段的重大技术难题（如跨架构硬件兼容性故障、大规模集群网络拥塞、软件栈深度适配问题），统筹协调内外部头部技术资源（如厂商专家、高校科研团队）进行根因分析。
5、项目交付支撑：主导构建标准化交付文档体系，输出具备行业参考价值的实施计划、部署图纸、配置清单、测试报告（含性能对比分析）、运维手册（含故障应急响应流程）及培训资料，牵头完成客户运维团队的体系化技术培训。
（二）任职要求
1、教育背景：985硕士研究生及以上学历优先，通信工程、电子信息工程、计算机科学与技术、软件工程等相关专业。
2、工作经验：具备智算中心、超算中心或大型数据中心项目交付、系统集成实际操作经验。主导过至少 2 个从零到一建设的千卡级及以上智算集群交付项目（需含 GPU/NPU 混合架构），具备千卡以上集群进行大模型训练，微调，推理的参数面优化经验。有省级重点智算项目（如政务智算中心、AI 大模型训练集群）核心交付经验者优先。具备互联网大厂工作经验优先。
3、网络技术：精通数通网络理论与实践，深入掌握 TCP/IP、HTTP、RoCEv2、IB 等协议原理及优化方案，能独立完成超大规模智算中心网络架构（含 Spine-Leaf 拓扑、RDMA 网络）的规划与设计；熟练使用 Python/Ansible 编写数据中心级交换机自动化部署脚本，具备万兆 / 四十万兆网络独立调试、全网联合调试及故障定位能力，曾主导解决过大规模集群网络拥塞、延迟超标等核心问题。
4、硬件知识：精通 X86/ARM 架构服务器（如华为 TaiShan、浪潮 NF 系列）、SAN 存储（如 EMC VMAX）、分布式存储（如 Ceph、GlusterFS）技术原理与部署优化；深入掌握主流算力厂商（NVIDIA、华为昇腾、寒武纪）GPU/NPU 产品技术细节（如算力卡型号差异、集群互联方案），能独立评估并选型适配不同业务场景的硬件解决方案，曾主导过跨厂商硬件混合部署的技术攻坚。
5、软件与平台：精通 Windows Server、Linux Server（CentOS/Ubuntu/RedHat）系统运维与内核优化；熟练使用 Shell/Python（需具备至少 1 个自主开发的运维工具或自动化脚本项目经验）。精通 OpenStack 云平台（含 Nova、Neutron、Cinder 模块）、Docker/K8s 容器技术的部署、调优与故障排查，熟悉大模型训练推理的分布式计算框架，具备大规模容器集群（千节点级）运维经验。熟悉 AI 框架（TensorFlow/PyTorch/MindSpore）部署与优化，有 AI 训练任务调度效率提升项目经验者优先。
6、认证证书：持有HCIE-Data Center/Cloud/Storage、CCIE Data Center 、RHCE/RHCA、NVIDIA DCAT 等专业认证优先；有云计算、AI 算力相关专利或核心技术论文（第一作者）者优先。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕