岗位职责:
1.负责设计和规划AI基础设施平台的整体架构,包括计算资源(如CPU、GPU、TPU等)、存储资源(如分布式存储、对象存储等)、网络资源(如高速网络、负载均衡等)的布局和整合。
2.负责根据业务需求和预算,选择合适的硬件设备、软件框架(如TensorFlow、PyTorch等)、容器化技术(如Docker、Kubernetes等)以及云服务等。
3.负责大规模在业务场景中的落地、算法开发与优化,需紧贴业务需求,不断改进算法在业务中的效果。
4.开发优化GPU/NPU多机多卡训练框架,如数据并行、张量并行、专家并行等,提供高性能稳定的模型训练平台。
5.优化大规模AIGC模型服务全链路性能,打造低延时、高吞吐、高稳定性的推理系统。
6.SD/LLM模型推理优化加速,包括但不限于算子优化,模型量化,模型裁剪,模型蒸馏等。
任职资格要求:
1.基本要求:大学本科及以上学历,至少具备基本要求中的2项,且至少具备(1)和(2)中的一项。
(1)硕士研究生及以上学历(学历和学位双证);
(2)省级科技人才(获得省政府授予的科技人才荣誉称号)或知名互联网公司、知名科技领先企业、大型科研院所、行业头部企业等机构中重要技术团队负责人或主要技术负责人;
(3)具有1个科创类百万级重大项目成功经验;
(4)从事过省级发展规划中新一代信息通信、人工智能、大数据等前沿领域和解决“卡脖子”技术问题;
(5)在人工智能、企业数字化等技术方向或某一特定技术领域拥有较强的研发背景,在某一特定技术领域的技术水平得到行业公认;
(6)牵头研发的科研项目取得实践成果,在行业荣获奖项。
2.专业要求:计算机类、电子信息类、数学类相关专业。
3.其他任职资格要求:
(1)了解主流AIGC算法模型,有AIGC模型推理和训练加速落地经验者优先。
(2)熟悉掌握梯度下降、SGD、Adam等分布式训练方法。
(3)熟悉TensorFlow、Pytorch等主流深度学习框架,并有实际的模型训练、调优的项目经验。
(4)熟练掌握Java/Python/C++中一种或多种编程语言,具备良好的软件设计和开发能力。
(5)有大模型训练优化经验,熟悉FSDP/DeepSpeed/Megatron等分布式训练框架经验者优先。