一. 岗位职责
1. 大模型开发与优化:
- 设计、训练和调优大规模语言模型(如LLaMA、GPT、PaLM等)或视觉多模态模型。
- 探索模型压缩、分布式训练、推理加速等技术(如LoRA、量化、模型并行)。
2. 算法研究与落地:
- 针对业务场景(如对话系统、内容生成、搜索推荐)优化模型效果。
- 解决长尾问题(如幻觉控制、多轮交互、低资源场景适配)。
3. 工程化支持:
- 与工程团队协作部署模型,优化计算资源利用率(GPU/TPU集群)。
- 开发高效的数据处理流水线,提升训练效率。
二. 核心能力要求**
1. 技术硬技能:
- 算法基础:精通深度学习、Transformer架构、自监督学习、强化学习(RLHF)。
- 框架经验:熟悉PyTorch、DeepSpeed、Megatron-LM、Hugging Face生态。
- 分布式训练:掌握多机多卡训练、混合精度训练、显存优化技术。
- 领域知识:了解大模型前沿技术(如MoE、Retrieval-Augmented Generation)。
2. 工程能力:
- 熟悉CUDA编程、模型量化(如AWQ、GPTQ)、推理框架(vLLM、TensorRT)。
- 具备高性能计算(HPC)或大规模数据处理经验(TB级数据集)。
3. 软技能:
- 能快速定位模型训练中的问题(如梯度爆炸、收敛异常)。
- 具备跨团队协作能力,能将学术成果转化为工业级解决方案。
候选人背景
- 学历:计算机科学、数学、统计学硕士/博士(顶尖候选人可能放宽至本科+突出项目经验)。
- 经验:
- 3年以上NLP/CV算法经验,至少1年大模型相关项目经历。
- 有论文发表(NeurIPS/ICML/ACL等)或开源项目贡献(如参与Alpaca、Vicuna等社区项目)优先。
- 加分项:
- 熟悉模型合规性(如数据隐私、内容安全)。
- 有端到端产品落地经验(如从0到1搭建大模型服务)