「北京丰台区多模态大模型工程师（VLA方向）招聘」_2025年中建智地置业有限公司招聘-智联招聘

职位详情

多模态大模型工程师（VLA方向）

3-3.5万

中建智地置业有限公司

北京

3-5年

硕士

10-24

工作地址

锐中心

职位描述

职位描述：

1. 负责人形机器人多模态大模型（VLM / VLA）的算法设计与开发，支持机器人在复杂任务中的智能操作与人机自然交互；

2. 参与大模型的预训练、后训练（包括 SFT、RLHF、RLAIF）及推理优化，提升机器人在动态环境下的感知与行为能力；

3. 推动 VLA 模型在感知、指令理解、动作生成、环境交互等核心环节的集成与工程落地；

4. 与机器人平台、硬件、系统团队密切协作，推进模型在端侧高效部署与运行；

5. 持续跟踪多模态学习、具身智能、生成模型等领域的最新研究成果，探索新技术在产品中的应用。

职位要求：

1. 计算机科学、人工智能、自动化、电子工程等相关专业，硕士及以上学历；

2. 具备 3 年以上工作经验，其中1年以上本领域工作经验；

3. 具备扎实的深度学习与多模态学习基础，熟悉 Transformer、BERT、ViT、CLIP、BLIP、BLIP-2 等主流架构；

4. 有大模型（如 VLM、LLM）训练或推理部署经验，熟悉其在图文理解、操作规划等任务中的实际应用；

5. 有以下任一经验者优先：

a. Vision-Language-Action（VLA）建模

b. 生成式模型（如 Diffusion、VAE）在交互控制中的应用

c. 多模态强化学习（Multi-modal RL）或模仿学习（IL）项目背景

6. 熟练掌握 PyTorch 或 TensorFlow，具备良好的工程实现能力、调试能力与团队协作意识；

7. 具备快速学习能力，乐于在复杂系统中解决多模态集成与部署挑战。

加分项

1. 熟悉机器人感知与控制系统，了解操作规划、导航、语义理解、动作生成等常见任务；

2. 有机器人系统或多模态交互系统的完整研发或部署经验；

3. 熟悉具身智能相关开源项目（如 LLaVA、RT-2、OpenVLA、Pi0、ALOHA、GROOT 等）并有实际使用或改进经验；

4. 具备从零构建多模态模型系统/训练管线/评估平台的能力；

5. 具备系统性研究经验，发表具身智能、多模态、机器人学习等方向的论文者优先。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕

中建智地置业有限公司

房地产开发,物业管理

500-999人 | 国企

为您推荐更多相似职位

8000-15000元

北京硕士

面议

北京本科

1.5-3万

北京硕士

3-6万

北京硕士

2.5-3.5万

北京本科

1-1.5万

北京硕士

周边城市

立即申请

工作地址

职位描述

职位福利

中建智地置业有限公司