职位描述
- 数据采集与筛选:依据业务场景(如智能客服、自动驾驶、医疗影像等),收集文本、语音、图像等多模态数据,筛选去除重复、噪声、不完整等无效数据,保障数据多样性与有效性。
- 数据标注与规则制定:设计标注规则(如实体识别、意图分类、情感标注、图像画框等),组织标注团队开展标注工作,培训标注人员,把控标注质量与一致性,解决标注中的边界模糊、语义歧义等问题。
- 数据质检与交付:对标注数据进行审核校验,通过交叉验证等方式减少标注偏差,按项目周期将高质量标注数据交付算法团队。
- 数据库维护:搭建数据管理平台,规范数据存储、检索流程,做好数据版本管理,保障数据安全与合规。
- 需求转化与方案设计:快速理解业务与算法需求,将其转化为模型训练目标,选择适配的机器学习 / 深度学习框架(如 TensorFlow、PyTorch),设计模型训练方案。
- 模型训练与参数调整:配置网络结构、学习率、优化器等超参数,运用监督、无监督、强化学习等算法训练模型,通过超参数搜索、交叉验证等方法提升模型精度与推理效率。
- 模型评估与调优:用准确率、召回率、F1 分数等指标评估模型性能,分析过拟合、数据不平衡等问题,通过调整网络结构、优化数据预处理等方式迭代优化模型。
- 技术研究与应用:跟踪行业前沿算法,评估其在业务场景的适用性,将新技术融入模型训练流程以提升效果。
- 模型部署协助:配合研发团队完成模型部署,制定部署后的测试方案,保障模型稳定上线。
- 性能监控与反馈:实时监控模型在生产环境中的关键指标(如误报率、响应时间),收集用户反馈,发现偏差及时发起再训练或参数微调。
- 报告撰写与复盘:定期输出模型性能报告,向产品、运营团队阐释模型表现及改进方向,为业务决策提供支撑。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕