职位描述
一、岗位职责
1、数据清洗与预处理:
负责海量原始数据的清洗、去噪、去重及结构化处理,解决数据不一致性、缺失值等问题;
构建高效的数据清洗流程和自动化工具,提升数据质量与可用性。
2、数据系统开发与维护:
参与大数据平台架构设计与开发,包括分布式存储、计算系统(如Hadoop、Spark、Flink等)的部署与优化;
开发高效ETL工具与数据管道,保障数据高效流转与实时性需求。
3、数据中台搭建与治理:
主导或参与企业级数据中台建设,整合多源异构数据,提供统一数据服务接口;
设计数据分层模型(ODS/DWD/DWS/ADS),制定数据治理规范,确保数据资产的可复用性。
4、大模型数据处理与支持:
针对大模型(如LLM、多模态模型)训练与推理需求,完成大规模数据集的采集、标注、特征工程及分布式处理;
优化数据存储与计算链路,提升大模型训练效率,支持算法团队完成数据驱动的模型迭代。
二、任职要求
1、计算机科学、数据科学、统计学等相关专业本科及以上学历;
2、3年以上大数据开发经验,具备完整的大数据平台或数据中台项目落地经验。
3、技术能力:
核心技能:
精通Java/Python/Scala等至少一门编程语言,熟悉SQL及NoSQL数据库;
熟悉Hadoop生态组件(HDFS/YARN/Hive/Spark/Flink等),具备调优经验;
熟练使用数据清洗工具(如Pandas、Spark SQL),具备复杂数据问题解决能力。
数据中台经验:
熟悉数据仓库建模理论,具备数据血缘、元数据管理、数据服务化(API/数据湖)实践经验;
了解主流数据中台架构(如阿里DataWorks、网易数帆等)或有自研经验者优先。
大模型数据处理:
熟悉大模型数据处理流程(如Tokenization、分布式并行训练数据预处理);
有TensorFlow/PyTorch等框架下的大规模数据处理经验,熟悉GPU集群优化者优先。
4、优秀的逻辑思维与问题拆解能力,能独立承担复杂数据任务;
5、良好的团队协作意识,能与算法、产品、业务部门高效沟通;
6、对技术前沿敏感,具备技术方案快速落地的执行力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕