岗位职责:
1、大数据处理和分析·负责大数据的收集、组织、清理、分析,以提取支持业务决策的有价值的见解。·设计和优化数据存储、清理和处理工作流程,以提高数据利用率。·进行数据探索,以识别关键业务指标的潜在影响因素,并提供数据驱动的业务见解。
2、机器学习建模和优化·应用机器学习算法和模型来解决实际业务问题,如预测分析、用户行为分析和风险评估。·设计、训练、优化和部署机器学习和深度学习模型,以增强业务预测能力。·在生产环境中进行模型评估、超参数优化和监控模型性能,以不断提高准确性和性能。
3.大数据技术堆栈和数据工程·使用分布式计算框架(例如,Spark、Hadoop、Flink)处理PB级数据,提高计算效率。·熟悉云平台(例如,AWS、Azure、GCP)上的数据存储和计算优化解决方案。·构建和优化数据管道、ETL流程、数据仓库和数据湖,以确保流畅、稳定、高效的数据流。
4.数据可视化和决策支持·设计和开发可视化仪表板和报告(例如,Tableau、Power BI、Matplotlib、Seborn),使复杂的数据更加直观和易于理解。·通过A/B测试和因果推理等方法提供数据支持,以优化业务策略。
5.跨团队协作和技术研究·与业务、产品和工程团队密切合作,了解业务需求,并提供数据驱动的决策支持。·紧跟最新的行业技术发展,探索新的数据分析和机器学习方法,并将其应用到实际的业务场景中。
任职资格:
1、教育背景·计算机科学、统计学、数学、数据科学,或相关领域的本科及以上学历。
2、专业技能·编程技能:精通Python(优先)或R,具有扎实的编程基础,熟悉常用的数据处理和分析库,如Scikit-Learning、XGBoost、TensorFlow、PyTorch、Pandas、NumPy、Matplotlib、Seborn等。·机器学习:深入了解回归、决策树、随机森林、XGBoost、深度学习(CNN、RNN、Transform)等算法,并能够将其应用到实际项目中。·大数据处理:熟练掌握Hadoop、Spark、Flink、Kafka、Hive、HBase等大数据处理技术,具备处理大规模数据的能力。·数据库和SQL:熟悉SQL和非关系型数据库(如MongoDB、Cassandra),具备高效数据查询、存储和管理的能力。·数学和统计学:具有较强的数学和统计学基础,具备概率论、数理统计、线性代数、优化方法等知识。
3.项目经验·3年以上大数据分析和机器学习经验,至少有3个完整的项目经验。·参与数据挖掘、预测分析、机器学习模型开发等项目,具备独立完成从数据采集、清洗、特征工程、模型训练和部署的整个过程的能力。·有MLOps(例如,MLflow、Kubeflow、Airflow)经验者优先,具有在生产中部署和监控模型的能力。
4.个人能力和素质·逻辑思维:具有较强的逻辑分析和解决问题的能力,能够快速解决复杂的数据问题。·团队协作:具有出色的沟通能力和与来自不同背景的团队成员有效协作的能力。·数据敏感性:对数据高度敏感,具有出色的数据分析和洞察力,能够从数据中识别潜在的业务价值。·自我激励:具有较强的学习能力和好奇心,能够持续关注数据科学和机器学习的最新发展。
加分项(非必需,但优先):
具有自然语言处理(NLP)、计算机视觉或推荐系统方面的经验,为业务扩展提供额外的技术支持(例如,多语言文本分析、图像识别、个性化推荐)。·熟悉A/B测试、因果推理和强化学习等方法。·有跨境或多语言数据处理经验,例如处理全球数据集以支持国际业务扩展。