岗位职责:
1、主导 AI 模型训练平台设计与核心开发,支撑大规模分布式训练、多任务调度及自动化训练流程落地。
2、开发训练资源管理模块,实现 GPU/CPU 集群调度、算力分配与监控,提升资源利用率与训练效率。
3、搭建自动化训练流水线,集成数据预处理、模型训练、评估、版本管理等功能,支持一键式训练任务发起。
4、优化大规模模型训练性能,解决超大规模参数(百亿级以上)训练的内存占用、通信效率、梯度同步等核心问题。
5、对接算法团队,定制化开发训练工具与插件。
6、负责平台稳定性与可扩展性,跟进训练框架技术前沿(如 DeepSpeed、Megatron-LM),持续迭代平台能力。
任职要求:
1、计算机、软件工程等相关专业本科及以上学历,3 年 + 分布式系统开发经验,其中 3 年 + AI 训练平台核心开发经验。
2、精通 Go/Python/C++ 等语言,熟悉 Kubernetes、Docker 等容器化技术,掌握分布式训练框架(PyTorch Distributed、Horovod)原理。
3、具备大规模集群资源调度、任务编排系统开发经验,熟悉 GPU 虚拟化、算力隔离等技术。
4、了解大模型训练核心技术(如模型并行、数据并行、混合精度训练),有千亿参数级模型训练平台搭建经验者优先。
5、熟练使用 Redis/Kafka/Elasticsearch 等中间件,具备高可用、高并发系统架构设计能力。
6、具备强问题解决能力与跨团队协作意识,了解 AI 模型研发全流程(数据 - 训练 - 部署)者优先。