职位描述
岗位职责:
1.负责大模型(如deepseek、通义千问等)的预训练、指令微调、领域适配(金融/供应链/政务等),提升模型特定场景性能;
2.设计参数高效微调方案(LoRA/P-Tuning),实现模型精度与训练成本平衡;
3.完成大模型轻量化部署(量化/剪枝/蒸馏),适配国产芯片(昇腾/寒武纪)及边缘计算环境;
4.开发自动化训练流水线,优化分布式训练效率(多卡并行、显存优化);
5.对接业务部门需求,将NLP/CV多模态能力嵌入实际场景(如智能客服、文档分析);
6.监控模型线上表现,设计持续学习机制与数据闭环方案;
7.应对国产算力限制,研发低资源依赖的训练策略。
任职要求:
1.计算机/数学/电子工程相关专业,2年以上大模型实战经验。
2.精通PyTorch/TensorFlow,熟悉Megatron/DeepSpeed等分布式框架;
3.掌握大模型主流架构(Transformer/LLaMA),有百亿参数级模型调优经验;
4.熟悉LangChain/向量数据库等AI工程化工具链;
5.深入理解RLHF、Prompt Engineering等微调方法论;
6.熟悉国产化技术生态(华为CANN/PaddlePaddle);
7.有国产大模型(文心一言/星火认知)商业化落地经验优先;
8.熟悉大模型安全合规(数据脱敏、内容过滤)解决方案优先;
9.对算力成本敏感,擅长在资源约束下实现技术突破。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕