职责:
负责大模型版本迭代开源benchmark评测;包括数理逻辑类、代码类、Agent类、情感类等,开发并行评测链路;负责垂类场景下评测标准制定、测试集构建、版本例行评测,形成评测报告反馈算法人员,预判潜在风险和缺陷
任职要求:
工作5-7年;统招本科,有大模型评测经验,熟悉大模型对话、推理评测,能针对性发现模型短板并给出优化建议。了解SFT/RLHF更佳。会python语言,熟悉http、并行化等,能写机器自动评测代码。
上班时间:10-21点 双休
无出差需求
面试:企业微信视频两轮需要编码
地址:上海复兴soho A7