职位描述
岗位职责:
1. 负责数据平台的设计、搭建与维护,包括数据采集、清洗、存储、转换及分发等全流程;
2. 设计数据标注规则与流程(如实体识别、语义分割),确保标注结果的一致性与准确性,进行自主标注或外包协作
3. 探索数据处理新技术与工具,推动数据平台的迭代升级(如引入实时计算、流处理框架等)。
4. 开发 ETL 流程与脚本,自动化处理海量结构化 / 非结构化数据,解决数据一致性、完整性问题;
5. 与业务部门、算法团队协作,理解数据需求,输出高质量的数据报表、数据 API 或数据集。
任职资格:
任职要求:
1. 学历:重本及以上学历,计算机科学、软件工程、数据科学等相关专业;
2. 精通Python/SQL,熟练使用数据处理库(Pandas/NumPy)及大数据工具(Spark/Hadoop/Kafka)编程语言(Python、Java),能独立开发数据处理脚本;
3. 熟悉主流标注工具和数据湖架构;
4. 掌握机器学习基础(特征工程、模型评估),了解大模型训练流程(如Transformer架构、RLHF);
5. 3 年以上数据工程师相关经验,有数据平台搭建或数据仓库建设经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕