职位详情
具身基础能力模型开发工程师
1.5-2.8万
北京清创智科科技有限公司
北京
1-3年
硕士
01-15
工作地址

中关新园壹号北清路81号院AI楼21层

职位描述
【岗位职责】
1、参与具身模型训练: 参与VLM(Vision-Language Model)、VLA(Vision-Language-Action)等具身基础模型的架构设计、训练、调优、评估与迭代工作,提升模型在视觉感知、语言理解、动作规划和泛化能力。
模型研究与跟踪: 跟踪和分析业界主流VLM模型(如CLIP, BLIP, LLaVA等)及相关多模态模型的技术进展,结合具身智能特点,探索创新的模型训练策略和方法。
2、分布式训练框架应用与优化: 熟练运用分布式VLM模型训练框架(如DeepSpeed, Megatron-LM, PyTorch Distributed等),参与或主导分布式训练流程的搭建、优化和维护,解决大规模模型训练过程中的性能瓶颈和稳定性问题。
3、数据工程与增强: 负责具身训练样本的特征工程与数据增强工作,包括但不限于图像、语言、动作等模态特征的设计、提取与优化,以及针对性的数据增强策略,以提高模型的鲁棒性和泛化能力。
4、实验设计与分析: 设计并执行训练实验,监控训练过程,分析实验结果,定位问题并提出改进方案,持续优化模型性能。
5、协作与文档: 与算法、软件、数据等团队紧密合作,推动模型在实际场景中的应用落地。撰写技术文档,分享技术经验。
【岗位要求】
1、硕士及以上学历,计算机科学、人工智能、机器人、自动化、数学、统计学等相关专业。
2、有参与VLM(Vision-Language Model)、VLA(Vision-Language-Action)等具身模型训练的实际项目经验,深入理解模型架构、训练技巧和评估方法。
3、深入了解至少一种主流VLM模型(如CLIP, BLIP, LLaVA, Flamingo, PALI等)的原理和实现细节。
4、熟悉分布式训练框架(如DeepSpeed, Megatron-LM, PyTorch Distributed, FSDP等),有实际使用经验者优先,理解数据并行、模型并行、流水线并行等技术。
5、了解具身场景下(如机器人操作、场景理解)样本的特点,具备图像特征(如目标检测、场景理解)、语言特征(如指令解析、常识推理)和动作特征(如轨迹表示、动态规划)的提取与优化经验。熟悉数据增强技术,并能针对多模态数据设计有效的增强策略。
6、精通Python,熟练使用PyTorch或TensorFlow等深度学习框架。
7、具备良好的问题分析和解决能力,强烈的求知欲和快速学习能力,能够跟进领域内最新技术动态。8、有机器人操作系统(ROS)经验,熟悉机器人仿真环境(如Gazebo, Isaac Sim)者优先。
8、在顶级学术会议(如CVPR, ICCV, ECCV, NeurIPS, ICML, ACL, CoRL, RSS等)发表过相关论文者优先。
9、 具备良好的沟通能力和团队协作精神,能够承受一定的工作压力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请