工作职责
数据治理与质量优化
1. 设计并实施数据治理策略,确保数据的准确性、一致性和合规性。
2. 开发数据清洗、去重、标准化和标注的自动化工具,提升数据可用性。
3. 结合统计抽样方法(如分层抽样、聚类抽样)评估数据质量,识别数据偏差。
大语言模型(LLM)应用与优化
1. 利用LLM(如GPT、BERT、LLaMA等)进行文本数据治理,包括实体识别、分类、摘要生成等。
2. 微调或训练领域专用的大语言模型,提升数据标注、知识图谱构建等任务的效率。
3. 解决LLM在数据治理中的挑战(如幻觉抑制、隐私保护、小样本学习)。
统计建模与实验设计
1. 开发统计抽样模型(如Bootstrap、贝叶斯抽样)支持数据分析和决策。
2. 设计A/B测试或多臂老虎机实验,评估数据治理产品的效果。
3. 构建预测模型或异常检测模型,监控数据管道健康状况。
跨团队协作
1. 与数据工程师合作优化数据管道,与产品经理沟通需求并落地数据治理功能。
2. 输出技术文档,向非技术团队解释模型原理和数据治理逻辑。
任职资格
教育背景与培训经历:计算机,统计学,数学相关专业。
工作经验:
1. 3年以上数据科学或机器学习相关工作经验。
2. 有数据治理、数据质量管控或数据中台项目经验者优先。
行业背景:医药相关项目经验为佳、乙方咨询类公司经验
专业技能及语言要求:
1. 熟练掌握Python(Pandas、NumPy、Scikit-learn)和SQL。
2. 有大语言模型实战经验(如Hugging Face、LangChain、OpenAI API)。
3. 精通统计抽样方法(随机抽样、重要性抽样等)和假设检验(p值、置信区间)。
4. 熟悉数据治理工具(如Apache Atlas、Collibra)或自建数据血缘/元数据管理系统
能力要求:
1. 逻辑清晰,能独立解决复杂数据问题
2. 沟通及快团队协同能力
3. 有良好的学习能力