岗位职责:
1、大模型开发与性能优化:负责百亿至千亿参数规模的大模型研发,包括架构设计、训练框架搭建、分布式训练优化等,提升模型训练效率并降低计算成本。例如,基于PyTorch、DeepSpeed等工具优化模型并行策略,解决显存不足或通信瓶颈问题。同时需探索模型压缩、剪枝等技术,实现轻量化部署。
2、前沿技术研究与工程落地跟踪学术界与工业界最新进展(如Transformer架构改进、多模态融合技术等),复:现并改进论文中的算法,推动技术在实际业务场景中的应用。例如,结合RAG(检索增强生成)技术优化垂直领域搜索产品,或通过Fine-tuning技术适配行业需求。
3、数据处理与系统集成:处理大规模数据集,完成数据清洗、特征工程及增强,设计高效的数据管道以支持模型训练。同时负责模型与生产系统的集成,确保其在分布式环境中稳定运行,并通过监控工具实时优化性能。
4、跨团队协作与技术支持与算法、产品、运维团队紧密合作,将:技术方案转化为可落地的产品功能。例如,为业务部门提供API接口或SDK支持,解决模型部署中的技术难题,并撰写技术文档以促进团队协作。
任职要求:
1、硕士及以上学历,计算机科学、人工智能、数学或相关专业优先,重点院校或具备海外学术背景者更具竞争力。
2、精通Python,熟悉PyTorch、TensorFlow等深度学习框架,具备CUDA并行计算或分布式训练经验。
3、深入理解NLP、预训练模型(如GPT、BERT)及多模态技术,掌握模型微调、提示工程(Prompt Engineering)等核心方法。
4、熟悉大规模模型部署工具链(如Docker、Kubernetes),了解云计算平台(AWS、阿里云)及模型服务化(Model Serving)技术。
5、需具备3年以上AI研发经验,主导或参与过千亿参数级别模型的训练与优化,有工业级项目落地经验(如搜索推荐、智能客服等)者优先。
6、能快速掌握新技术(如开源模型DeepSeek-R1),适应行业高速迭代,具备技术敏感性和创新思维。
7、擅长跨部门沟通,能将复杂技术方案转化为非技术人员可理解的方案,并推动团队高效执行。