职位详情
数据工程师(深度学习/大模型方向)
1.5-2.5万
浪潮集团
上海
3-5年
本科
04-22
工作地址

科技领袖之都43号楼

职位描述
岗位职责
1. 数据基础设施构建
1.1 设计并搭建面向深度学习和大模型训练的高效数据管道(Data Pipeline),支持TB/PB级多模态数据(文本、图像、语音等)的采集、清洗、存储与分布式处理。
1.2 优化数据预处理流程(ETL/ELT),提升数据吞吐量与处理效率,满足大模型训练对海量数据的实时性需求。
2. 数据质量管理
2.1 开发数据质量监控工具,识别并修复数据噪声、缺失、偏差等问题,确保训练数据的可靠性。
2.2 建立数据版本控制机制,跟踪数据变更历史,支持模型训练的可复现性。
3. 分布式数据处理
3.1 基于Spark、Flink、Ray等框架构建分布式数据处理系统,加速数据并行与模型训练效率。
3.2 与算法团队协作,优化数据分片、采样策略,适配分布式训练框架。
4. 数据合规与安全
4.1 设计数据脱敏、匿名化方案,确保敏感数据(如用户隐私数据)符合GDPR等法规要求。
4.2 构建数据权限管理体系,实现细粒度访问控制。
任职要求
1. 精通Python,熟悉SQL及至少一种大数据框架(Spark/Flink)。
2. 熟练使用Airflow、Kafka、Dagster等工具构建数据工作流。
3. 熟悉数据湖(Delta Lake/Iceberg)、向量数据库(Milvus/Pinecone)等新型存储技术。
4. 理解深度学习数据需求:掌握TFDS、HuggingFace Datasets等工具,熟悉数据并行/流水线并行逻辑。
经验背景
1. 3年以上数据工程经验,至少1年支持过大规模模型(LLM/CV大模型)数据体系建设。
2. 有完整的数据治理项目经验,熟悉数据血缘追踪、元数据管理(如Apache Atlas)。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请