多模态大模型与具身智能的前沿,致力于开发“会看、会说、会思考、会行动”的智能驾驶系统。将视觉理解、自然语言交互与安全的身体控制策略深度融合,打造能够与人类自然沟通、理解复杂场景并执行精准动作的机器人大脑。
岗位职责:
1.设计、实现并优化面向智能驾驶的多模态大模型架构,重点解决视觉场景理解、语言指令解析与驾驶动作生成的端到端学习。
2.研发基于大语言模型的运动场景认知、因果推理、规划决策与交互对话能力。
3.构建高质量的运动场景多模态数据集,包括视觉、语言描述、动作与轨迹的精确对齐。
4.设计并实现人机自然语言交互接口,支持高级别指令理解和场景问答。
5.深入分析模型在长尾、复杂场景下的失败案例,驱动算法持续迭代。
任职要求
1.计算机科学、人工智能、机器人学、电子工程、车辆工程等相关专业的硕士及以上学历。 精通深度学习、计算机视觉、自然语言处理。熟悉Transformer等主流架构。
2.具有多模态大模型(如 VLMs)或机器人VLA项目的实际研发经验,熟悉OpenAI 等至少一种相关模型框架。
3.精通Python, 熟练掌握PyTorch或TensorFlow等深度学习框架。
4.对自动驾驶(感知、预测、规划、控制)或机器人(运动控制、任务规划)技术栈有深入理解。
优先条件:
1. 拥有自动驾驶、机器人或相关项目经验。
2. 具备驾驶或机器人相关大规模多模态数据集的构建、清洗与管理经验。
3. 熟悉世界模型、强化学习(RL)、模仿学习在决策与控制中的应用。