岗位职责:
1、负责端到端智驾数据闭环的整体技术方案与流程设计,包括数据采集、回传、清洗、标注、训练、评测、OTA 回灌等全链路标准与接口规范;制定并持续迭代多模态数据(图像、点云、视频、CAN、IMU、GNSS、高精地图切片等)的元数据规范、命名规则、目录结构和版本管理策略;确保与感知、规控、仿真、测试等多团队接口对齐。
2、负责构建对海量回传数据进行清洗、去重、脱敏、场景聚类、价值密度评估,输出高价值场景库、corner case 库及长尾问题库;设计并实现数据质量评估与监控体系,开发自动化质检 pipeline。
3、 负责车端-云端数据通道的接入、解析、校验与入库;开发自动标注、主动学习、弱监督/半监督学习框架。持续优化模型-数据闭环迭代效率;设计可视化数据看板,实时展示数据分布、质量趋势、标注进度、模型性能及长尾场景热力图,辅助算法与测试团队快速定位问题;持版本回溯与 A/B 对比,建立问题单追踪机制,实现数据缺陷与模型缺陷的双向可追溯。
4、负责端、TSP、云平台、算法、测试、合规、法务等多团队对接,推动数据合规与隐私计算落地;建立数据分级分类、权限管控、生命周期管理(冷/热/冰数据分层存储)及灾备策略,满足可审计、可回滚、可持续交付要求。
素质要求:
1、 计算机科学、车辆工程、人工智能等相关专业本科及以上学历,硕士优先;2年以上自动驾驶、数据开发或相关领域经验,有数据闭环、大数据平台开发经验者优先。
2、技术能力
深刻理解自动驾驶感知(视觉、激光雷达、毫米波、融合)与规控任务的数据需求,熟悉 OpenScenario、OSI、ADASIS、ROS bag、PCD、HDF5 等数据格式;精通 Python/Scala/Java/C++ 中的至少一种,熟练使用 Spark/Flink/Kafka/Pulsar 等大数据组件,掌握 Airflow/Luigi/Kubeflow 等工作流编排工具;熟悉 PostgreSQL、ClickHouse、Iceberg、Hudi、DeltaLake 等数据湖/仓技术;能编写高效 SQL 及优化查询性能;掌握 Docker/K8s、GitOps、CI/CD,具备云平台(AWS、阿里云、华为云、腾讯云)的实战经验。
3、 对数据一致性、完整性、时效性、可追溯性有强迫级敏感度;善于用统计与可视化手段量化问题并推动闭环解决。
4、沟通协作:良好的跨团队沟通能力,可清晰传达技术需求与结果。
5、有自动驾驶量产项目经验,熟悉数据闭环全流程经验者优先。