【岗位职责】
1、数据集构建与维护
主导具身智能相关多模态数据集(图像、点云、语言、动作等)的采集、标注、清洗、处理、存储、版本管理与持续优化,确保数据集的可追溯性、一致性与多样性。支持空间理解、视觉定位、任务规划、多模态推理、可用性等方向的数据集设计、构建与迭代,涵盖真实世界与仿真环境(如AI2THOR、AirSim、Gazebo、Isaac、Libero、ALOHA等)。
2、数据合成与增强
设计并实施数据合成与增强方案,利用生成式AI、物理仿真、数字孪生等技术,高效生成高质量具身智能训练数据,降低真机采集成本,提升数据多样性与覆盖度。跟踪并实践前沿数据合成方法(如Sim2Real、视频生成大模型后训练等),探索跨平台、跨模态的数据迁移与泛化能力。
3、数据质量评估与治理
建立并完善数据质量评估体系,包括数据完整性、准确性、一致性、时效性、可用性等维度,结合自动化与人工审核,保障数据质量满足算法训练需求。
推动数据治理标准化,制定数据采集、标注、评测、迭代等规范,参与行业标准制定与推广。数据Pipeline与工具开发,设计并开发高效、可扩展的数据处理Pipeline,支持大规模多源异构数据的自动化采集、清洗、4 标注、检索、分析与可视化。参与自动化数据标注系统与数据挖掘工具开发,持续优化数据标注效率与质量,为算法团队提供高价值数据支持。
5、 跨团队协作与算法支持
与算法、仿真、机器人等跨职能团队紧密合作,理解算法数据需求,支持技能学习、多模态模型、端到端学习、迁移学习等方向的数据应用与基准建立。支持数据集在机器人技能训练、任务评测、模型微调等环节的落地应用,推动数据集在具身智能领域的快速转化。
【岗位要求】
1 、学历与专业背景
硕士及以上学历,人工智能、计算机、机器人、自动化、数学等相关专业优先;有3年以上相关工作经验,有大模型、大数据、自动驾驶、机器人数据集项目经验者优先。
2 、编程与工程能力
精通Python,具备扎实的编程基础,熟练掌握TensorFlow、PyTorch等深度学习框架,熟悉ROS、NVIDIA Isaac、MuJoCo、Gazebo等机器人仿真与开发环境。具备分布式数据处理、ETL开发、数据仓库建设经验,熟悉Hadoop、Spark、Flink等大数据技术栈者优先。
3 、数据集与合成技术经验
熟悉主流具身智能数据集(如RoboMIND、OpenX-Embodiment、AgiBot World、DROID、DexonomySim等),了解其特点、适用场景与数据规范。
熟悉数据合成与增强技术,包括物理仿真、生成式AI、视频生成大模型后训练、Sim2Real等,有实际数据合成项目经验者优先。
4 、数据质量与评估能力
熟悉数据质量评估方法(如数据验证、交叉验证、逻辑检查、可视化分析、误差分析等),能够设计并实施数据质量监控与改进方案。
具备数据治理、标准化流程建设经验,有数据集版本管理、可追溯性建设经验者优先。
5 、仿真与机器人系统经验
熟悉AI2THOR、AirSim、Gazebo、Isaac、Libero、ALOHA等主流仿真环境,有机器人数据采集、仿真数据生成、真机部署经验者优先。
了解空间理解、视觉定位、任务规划、多模态推理等具身智能关键技术,熟悉相关数据需求与评测方法。