职位描述
岗位定位:负责AI训练与推理任务的算力资源规划、部署与优化,保障大模型(如百亿/千亿参数模型)的高效训练与稳定运行,支撑业务快速迭代。
岗位职责:
1. 算力平台建设与维护
设计并搭建AI算力集群(如GPU/NPU服务器、分布式存储系统),部署深度学习框架(如PyTorch、TensorFlow、MindSpore)及配套工具链(如CUDA、NCCL)。
负责集群资源管理(如Kubernetes/Docker容器化调度)、任务调度系统(如Slurm、Ray)的运维与优化,提升资源利用率。
2. 性能优化与成本控制
分析AI训练/推理任务的瓶颈(如GPU利用率低、通信延迟高),通过算子优化、通信并行(如数据并行/模型并行)、混合精度训练等技术提升计算效率。
结合业务需求(如训练任务峰值、推理QPS),制定资源分配策略(如弹性扩缩容),降低算力成本(如TCO优化)。
3. 稳定性与安全保障
设计高可用架构(如故障自动转移、数据备份恢复机制),监控集群健康状态(如GPU温度、内存泄漏),快速定位并解决硬件/软件故障。
制定算力资源安全策略(如访问权限控制、数据加密),保障模型训练数据与知识产权安全。
任职资格
• 教育背景:计算机、通信、电子工程等相关专业本科及以上学历。
• 经验要求:
3年以上AI算力平台/高性能计算相关工作经验,有大规模模型(如百亿参数以上)训练/推理项目经验者优先。
熟悉GPU/NPU硬件架构(如NVIDIA A100/H100、华为昇腾910B)及性能优化技术(如CUDA编程、NCCL通信优化)。
• 核心技能:
系统架构能力:精通分布式系统设计(如参数服务器、数据并行框架),熟悉高性能网络(如InfiniBand/RDMA)、存储(如NVMe-oF)技术。
性能调优能力:能使用性能分析工具(如Nsight、VTune)定位瓶颈,通过算子融合、内存优化等技术提升计算效率(如训练速度提升20%+)。
运维与安全能力:熟悉Linux系统管理、Shell/Python自动化脚本,掌握K8s/Docker生态及监控工具(如Prometheus/Grafana)。
业务敏感度:理解AI训练/推理任务的特点(如动态资源需求、突发负载),能制定弹性资源策略平衡性能与成本。
*加分项:
有云服务厂商(如AWS/Azure/GCP)或大厂AI基础设施团队经验者优先;
熟悉绿色计算技术(如液冷散热、能耗优化)或有相关专利者优先。
岗位亮点
1. 参与千亿级参数大模型的算力底座建设,推动AI基础设施技术突破;
2. 接触前沿硬件(如Hopper架构GPU、国产芯片),提供技术培训与职业发展
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕