职位详情
多模态大模型工程师(VLA方向)
3-3.5万
中建智地置业有限公司
北京
3-5年
硕士
10-24
工作地址

锐中心

职位描述


职位描述:

1. 负责人形机器人多模态大模型(VLM / VLA)的算法设计与开发,支持机器人在复杂任务中的智能操作与人机自然交互;

2. 参与大模型的预训练、后训练(包括 SFT、RLHF、RLAIF)及推理优化,提升机器人在动态环境下的感知与行为能力;

3. 推动 VLA 模型在感知、指令理解、动作生成、环境交互等核心环节的集成与工程落地;

4. 与机器人平台、硬件、系统团队密切协作,推进模型在端侧高效部署与运行;

5. 持续跟踪多模态学习、具身智能、生成模型等领域的最新研究成果,探索新技术在产品中的应用。


职位要求:

1. 计算机科学、人工智能、自动化、电子工程等相关专业,硕士及以上学历;

2. 具备 3 年以上工作经验,其中1年以上本领域工作经验;

3. 具备扎实的深度学习与多模态学习基础,熟悉 Transformer、BERT、ViT、CLIP、BLIP、BLIP-2 等主流架构;

4. 有大模型(如 VLM、LLM)训练或推理部署经验,熟悉其在图文理解、操作规划等任务中的实际应用;

5. 有以下任一经验者优先:

a. Vision-Language-Action(VLA)建模

b. 生成式模型(如 Diffusion、VAE)在交互控制中的应用

c. 多模态强化学习(Multi-modal RL)或模仿学习(IL)项目背景

6. 熟练掌握 PyTorch 或 TensorFlow,具备良好的工程实现能力、调试能力与团队协作意识;

7. 具备快速学习能力,乐于在复杂系统中解决多模态集成与部署挑战。


加分项

1. 熟悉机器人感知与控制系统,了解操作规划、导航、语义理解、动作生成等常见任务;

2. 有机器人系统或多模态交互系统的完整研发或部署经验;

3. 熟悉具身智能相关开源项目(如 LLaVA、RT-2、OpenVLA、Pi0、ALOHA、GROOT 等)并有实际使用或改进经验;

4. 具备从零构建多模态模型系统/训练管线/评估平台的能力;

5. 具备系统性研究经验,发表具身智能、多模态、机器人学习等方向的论文者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请