岗位职责:
核心职责 (聚焦Python开发,支撑算法模型)
1.Python数据处理模块开发:
•使用 Python 开发可复用、可维护的数据清洗、转换、特征处理模块/函数/工具包。
•利用 Pandas, NumPy 等库高效处理结构化/半结构化数据,解决实际业务场景中的数据问题。
•优化现有Python数据处理脚本的性能(速度、内存效率)。
2.数据处理管道构建与集成:
•参与设计和实现基于Python的数据预处理流水线,确保其模块化、可配置、易扩展。
•将开发的数据处理模块集成到模型训练、评估或部署的自动化流程中。
•编写清晰易懂的API或工具接口,供算法工程师或下游系统调用。
3.数据集构建与管理 (Python实现):
•开发Python脚本进行数据集的自动化拆分(训练/验证/测试集)、采样、版本管理。
•实现或维护数据集的加载、缓存机制,提升模型训练效率。
4.模型支持数据工程:
•开发工具/脚本处理模型预测结果,进行基础统计、格式化或持久化。
•构建Python工具收集、汇总模型评估所需的指标数据。
任职要求 (Python为核心)
1.教育背景:
•计算机科学、软件工程、数据科学或相关专业的本科或研究生。
2.核心技能与知识 (Python工程能力是重点):
•精通Python编程: 扎实的Python语言基础(OOP, 常用数据结构,函数式编程概念),这是核心要求。有≥2个使用Python完成的项目经验(课程项目、个人项目、竞赛等)。
•Python数据处理库精通: 熟练掌握 Pandas 进行复杂数据操作(索引、分组聚合、合并、透视表、高效处理缺失值/异常值等)。熟悉 NumPy 进行数组操作和数值计算。
2.工程化思维:
•理解模块化、可复用性、可维护性的代码设计原则。
•了解基础的软件测试概念(单元测试、集成测试)
•熟悉版本控制工具 (分支管理、Pull Request流程)。
•基础数据结构与算法: 了解常见数据结构(列表、字典、集合)和算法(排序、搜索)的时间/空间复杂度。
•操作系统与环境: 熟悉Linux命令行操作,能配置Python虚拟环境(如venv, conda),管理依赖。
3.对算法模型的理解与应用场景:
•基本概念: 了解机器学习的基本流程(数据->特征->模型->评估)和常见任务(分类、回归)。了解常用评估指标(准确率、召回率、AUC等)的含义。
•兴趣驱动: 对人工智能领域有浓厚兴趣,渴望了解模型背后的数据工程挑战。
4.软技能:
•极强的学习能力与主动性: 能快速学习新技术并应用于实践。
•严谨细致: 对代码质量和数据准确性有高要求,注重细节。
•良好的沟通协作: 能清晰表达技术问题和解决方案,积极融入团队。
•解决问题能力: 具备独立调试代码、分析解决技术问题的能力。
•责任心与自驱力: 能按时交付高质量的工作成果。