【职位描述】
1. 负责公司大模型(LLM及多模态模型)的核心算法研发,包括但不限于模型架构的设计、改进与实现。
2. 主导针对工业(矿山)垂直领域的大模型预训练(Pre-training)和微调(Fine-tuning),包括SFT、RLHF、DPO等关键技术。
3. 构建和管理高效、可扩展的数据处理管线,负责大规模训练数据的清洗、去重、过滤和Tokenization。
4. 紧跟大模型前沿技术,研究参数高效微调(如LoRA、QLoRA)、模型融合、长文本处理等技术,并将其应用于模型迭代。
5.精通模型,量化,减枝,蒸馏。
【岗位要求】
1. 人工智能、计算机科学、数学等相关专业,硕士及以上学历(博士优先)。
2. 具备扎实的数学和机器学习基础,深入理解Transformer、MoE等大模型架构及其原理。
3. 在AI/NLP/ML领域顶级会议(如NeurIPS, ICML, ICLR, ACL, EMNLP等)发表高质量论文者优先。
4. 精通PyTorch/JAX/TensorFlow等框架,具备丰富的大模型训练经验,熟悉分布式训练(FSDP, ZeRO, DeepSpeed)技术。
5. 具备强大的工程能力,能熟练处理T级别以上的大规模数据集。
6. 对新技术充满热情,具备极强的论文阅读、复现和创新能力。
7. 熟悉Hugging Face生态,有大型开源模型(如Llama, Mistral, GLM等)训练和微调经验者优先。
【我们提供】
1. 具有竞争力的薪酬与股权激励
2. 前沿的技术方向与充足的算力资源
3. 与顶尖高校及研究机构的合作机会
4. 开放包容的技术氛围,鼓励创新与探索