职位详情
多模态大模型VLA/VLM(具身智能方向)
2.5-5万
中国电子科技集团有限公司电子科学研究院
北京
3-5年
硕士
07-18
工作地址

双园路

职位描述
【岗位职责】

1、负责视觉语言行动模型(VLA)和视觉语言模型(VLM)的机器人感知与决策算法,实现视觉-语言-动作的端到端闭环。结合视觉、语言和动作模态,实现从多模态输入到机器人、机器狗、无人机等设备的动作输出;设计和优化模型架构,完成模型的数据处理、训练以及真机部署工作,确保模型的高效性和准确性。

2、将VLM/VLA模型部署至机器人硬件平台(如ROS、嵌入式设备),优化推理效率(模型剪枝、量化、TensorRT加速等)。设计数据闭环 pipeline,通过真实场景反馈持续迭代模型性能。

2、跟踪 VLA/VLM 领域的最新技术动态,如流匹配、动作分块架构等,探索新的模型架构和算法优化方法;深入调研具身智能领域相关的前沿技术探寻将最新技术应用到具身智能领域的可能性。

3、协同工程团队推动算法在真实机器人平台中的工程化部署;开发面向机器人任务的数据驱动训练框架,提升模型在物理场景中的泛化性与鲁棒性。

4、参与大规模多模态数据集的收集、处理和标注,为大模型预训练提供高质量的数据支持;设计具身智能领域多模态数据的采集、清洗与增强策略,建立高效数据管道。

5、参与相关技术的学术研究和论文发表,推动团队技术能力的提升。

【任职要求】

教育背景:计算机科学、人工智能、自动化、机器人技术或相关专业硕士及以上学历。

工作经验:2年以上AI算法研发经验,具备多模态大模型训练/微调项目实战经验。

技能要求:精通 Python;熟悉 PyTorch、DeepSpeed 等深度学习框架;熟悉主流VLM/VLA架构(如CLIP、LLaVA、OpenVLA、TinyVLA、π-0等),具备多模态大模型训练调优经验。

【加分项】

1、熟悉机器人仿真平台(如ISSAC Sim、Gazebo)者优先;

2、有多机、多卡的大模型训练经验优先;

3、熟悉CUDA开发生态、NCCL框架者优先;

4、在期刊会议发表过 Agent或强化学习相关研究论文者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请