岗位职责:
1. 文本数据处理: 参与中文文本数据的清洗、加工和标准化工作,包括但不限于分词、拼音注音、实体识别、错别字校正等。
2. 数据分析: 通过对用户行为日志等海量数据的分析,挖掘数据价值,为产品优化和业务增长提供数据支持。
3. 数据构建: 与算法工程师紧密协作,根据模型需求,构建和处理高质量的训练、验证和测试数据集。
任职要求:
1. 经验背景: 具备2年及以上数据开发或数据处理相关工作经验,计算机、统计学或相关专业本科及以上学历。
2. 技术能力:
Python: 精通Python编程,熟练掌握多线程/多进程编程,能够开发高效的数据处理脚本和应用。
SQL: 精通SQL,具备复杂查询、数据转换和性能优化的能力。
大数据框架: 拥有Spark等分布式计算框架的实际项目经验,能够进行并行数据处理。
3. 文本处理: 熟悉常见的中文文本处理技术(如分词、拼音注音、错别字校正等),并有相关项目实践经验。
4. 数据分析与理解: 具备优秀的用户日志分析能力,能够从海量数据中发现问题和价值;深刻理解数据质量评估的目标和重要性。
加分项:
1. AI数据经验: 有为AI模型(尤其是NLP、大语言模型LLM相关领域)构建训练数据的经验者优先。
2. 工程实践: 对数据敏感,追求卓越,有良好的代码规范和工程实践习惯。
3. 工具与平台: 熟悉如Hadoop、Hive、Kafka等其他大数据生态组件者优先。