职位描述
【职责描述】:
1.模型开发与优化:
主导AI大模型(大语言模型/视觉-语言模型)的架构设计、训练调优及部署落地,针对业务场景优化模型性能(推理速度、内存占用等),实现模型轻量化(如量化、剪枝、蒸馏),探索前沿技术(如MoE、RLHF、长上下文建模)提升模型效果;
负责大模型的预训练、微调及迁移学习,结合业务需求进行模型定制化开发,提升模型在特定场景下的表现。
2.算法研究与落地:
研发核心算法(如预训练、提示工程、模型对齐),解决实际业务中的技术瓶颈,设计高效的分布式训练方案(数据/模型并行),提升千亿级参数模型的训练效率;
构建自动化评估体系,量化模型在垂类场景中的表现,推动算法在搜索、推荐、对话等场景的落地。
3.工程化支持:
搭建高可用数据处理Pipeline(清洗、标注、增强),开发模型服务框架,支持高并发推理及动态扩缩容;
与产品团队协作,推动算法在业务场景中的落地,确保模型的高效部署和稳定运行。
4.技术前瞻性探索:
跟踪LLM、Agent、AIGC等领域最新进展,主导技术选型,参与开源社区贡献,推动内部技术成果转化;
探索大模型与AI应用开发的前沿技术,推动技术创新和业务场景的结合。
【任职要求】:
1.学历要求:
研究生及以上学历,(特别优秀的本科也可以考虑),计算机/数学/AI相关专业。
2.技术栈:
精通Python编程语言,熟练使用PyTorch、PaddlePaddle等深度学习框架,具备CUDA优化经验;
深入理解Transformer、Diffusion等模型原理及实现细节,熟悉Megatron-LM、DeepSpeed、HuggingFace等开源生态;
熟悉大模型的训练、微调及部署流程,具备模型轻量化(如量化、剪枝、蒸馏)经验。
3.经验要求:
3年以上大模型实战经验(需提供项目细节,如模型参数量、数据规模、性能指标),有完整参与从0到1的大模型训练或产品算法落地案例;
具备大规模分布式训练经验,熟悉数据并行、模型并行等训练策略,能够优化千亿级参数模型的训练效率。
4.能力要求:
具备技术抽象能力,能将业务问题转化为可建模的算法问题,对技术敏感度高,能快速验证新技术可行性;
具备跨团队协作经验,能清晰传递技术价值至非技术人员,推动技术成果在业务场景中的落地。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕