职位描述
职位要求:
1. 熟悉AI算法的研发、优化及落地,涵盖机器学习、深度学习、强化学习等领域。
2. 针对业务场景(如智能办公、智能体、智能系统等)设计高效的算法解决方案。
3. 跟踪学术界与工业界前沿技术(如大模型、AIGC等),推动算法创新与性能提升,探索前沿技术,形成系列算法和大模型融合解决方案,完成算法团队研发落地工作,推动大模型应用性能达到行业领先。
4. 负责通用大模型(包括十亿、百亿参数量)的设计、开发和优化,包括但不限于预训练、跨模态信息对齐方法探索、SFT、指令微调、RLHF、Prompt工程、模型评估、模型推理等。
5. 参与大规模数据集的构建、清洗及特征工程,优化模型训练与推理效率。
6. 与工程团队协作,完成算法的产品化部署(如模型压缩、分布式训练、边缘端优化等)。
7. 撰写技术文档、专利及论文,推动团队技术沉淀。
技能要求:
1. 学历:计算机、软件工程、数学、统计学、电子信息、信息系统等相关专业,应届生本科硕士 211/985优先考虑。
2. 基础:
o 扎实的机器学习/深度学习理论基础(如CNN/RNN/Transformer/Diffusion、优化算法、评估指标等)。
o 熟悉常见框架(PyTorch)及工具链(Scikit-learn/Pandas/Numpy)。
o 对多模态大模型训练范式等有深入理解和实践,有多机多卡大模型训练、大模型微调、从0到1构建多模态大模型(百亿参数以上)等实践经验;
o 对大模型和生成式AI有浓厚的兴趣,对至少一项生成式模型的原理与应用具有深入了解,如Wan、可灵、Stable Diffusion等;
3. 编程:
o 精通Python,熟悉C++/Java/Go等更佳,具备良好的代码规范与工程实现能力。
o 熟悉Linux开发环境,掌握Git、Docker等工具。了解分布式训练框架,如Deepspeed和Mearon-LM等,并有一定的多机多卡分布式训练经验
4. 科研经验:
o 有实际AI项目经验(如开源项目、论文复现或企业级应用等)。
o 熟悉分布式训练(Deepspeed)、模型部署(ONNX/TensorRT)、模型压缩以及端侧部署等。
o 具备较强的团队协作能力和沟通能力,有较强的学习能力和业务分析及问题解决能力。
加分项:
• 顶会论文、专利、竞赛等。
团队与文化
• 技术导向:鼓励技术创新,提供丰富算力与数据支持,定期技术分享和报告。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕