职位描述
岗位职责:
1. 设计和搭建大模型架构,如Transformer或其他新型神经网络结构,研究和改进现有模型以适应特定领域的应用需求。
2. 收集和整理大量的训练数据,对数据进行清洗、标注、标准化等预处理工作,构建适合大模型训练的数据管道。
3. 利用大规模计算资源进行模型训练,监控训练过程,调整超参数以优化模型性能,实施分布式训练策略。
4. 使用标准或自定义评估指标衡量模型在不同任务上的性能,对模型输出进行细致分析,找出潜在的问题和不足,进行针对性优化。
5. 研究新算法和技术,如模型压缩、量化、蒸馏等,降低模型复杂度和运行时资源消耗,探索和实施新技术。
6. 将训练好的大模型集成到实际产品或服务中,解决模型部署中的工程问题。
7. 与产品经理、数据科学家、软件工程师等紧密合作,了解业务需求并将模型应用于具体场景,参与项目规划与进度跟踪。
岗位要求:
1. 计算机科学、人工智能或相关领域硕士及以上学历,具有3年以上AI研发经验。
2. 精通自然语言处理、机器学习、深度学习等AI领域的基础理论和算法,熟练掌握Python、Java或其他相关编程语言,有良好的数据结构和算法知识。
3. 熟悉至少一种深度学习框架,如TensorFlow、PyTorch,并有实际项目经验。
4. 对搜索引擎原理有深入理解,有实际搜索引擎开发经验者优先。
5. 有优秀的团队合作精神和沟通能力,能够带领团队解决复杂的技术问题。
6. 对AI技术有强烈的好奇心和热情,持续关注并能够快速学习最新的AI研究成果。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕