【岗位职责】
1、数据采集与标注
参与具身智能相关多模态数据(图像、点云、语言、动作等)的采集、清洗、标注、校对与质量检查,确保数据准确性与一致性。按照标注规范,协助完成空间理解、视觉定位、任务规划、多模态推理、可用性等方向的数据标注与预处理工作。
2、数据合成与增强辅助
协助实施数据合成与增强方案,利用仿真环境(如AI2THOR、AirSim、Gazebo、Isaac、Libero、ALOHA等)生成训练数据,支持Sim2Real等前沿数据合成实验。辅助探索生成式AI、视频生成大模型等在数据合成中的应用,提升数据多样性与覆盖度。
3、数据质量评估与治理支持
参与数据质量评估流程,包括数据完整性、准确性、一致性、可用性等维度的检查与反馈,协助优化数据质量监控体系。协助制定数据采集、标注、评测等规范,参与数据治理标准化流程建设。
4、工具使用与流程优化
学习并使用数据处理、标注、分析工具(如Python、Pandas、OpenCV、ROS等),参与数据Pipeline的搭建与维护,提升数据处理效率。
收集标注与数据处理中的问题,协助优化标注工具与流程,提升团队数据生产效率。
5、文档撰写与团队协作
协助撰写数据处理文档、标注规范、实验报告等,保障项目知识沉淀与团队协作。与算法、仿真、机器人等团队协作,支持数据需求对接、数据集版本管理与迭代。
【岗位要求】
1、学历与专业背景
本科及以上在读,计算机、人工智能、机器人、自动化、数学、数据科学等相关专业优先。能保证每周至少4天、连续3个月以上的实习时间,可全勤者优先。
2、编程与工具能力
熟悉Python编程,了解Pandas、Numpy等数据处理库,有OpenCV、ROS、Hugging Face等工具使用经验者优先。了解AI2THOR、AirSim、Gazebo、Isaac、Libero、ALOHA等至少一种仿真环境,有机器人或仿真平台数据采集经验者优先。
3、数据集与合成技术认知
了解具身智能常用数据集(如RoboMIND、OpenX-Embodiment、DROID等),熟悉数据标注、清洗、增强的基本流程。对数据合成、Sim2Real、生成式AI等技术有浓厚兴趣,有相关课程或项目经验者优先。
4、数据质量与评估能力
具备良好的细节观察力与耐心,对数据准确性有高度敏感性,能发现并反馈数据问题。了解数据质量评估方法(如逻辑检查、可视化分析、误差分析等),愿意参与数据治理与标准化建设。
5、软技能与综合素质
具备优秀的学习能力、逻辑思维与团队协作能力,能够快速掌握新技术与工具。
具备良好的英文阅读能力,能阅读英文技术文档与文献,有开源项目、竞赛或论文经历者优先。