职位描述
岗位职责:
主导大模型相关核心算法研发,包括模型选型、预训练、微调、对齐、评测以及推理优化。
负责整体 AI 系统架构的设计与规划,包括数据流、模型流、服务流、RAG 架构、多模态架构等关键技术路线。
规划并搭建大模型训练与推理平台,统筹算力资源管理、模型版本管理、模型服务治理与可观测性体系。
牵头构建企业级知识库、数据管线、特征体系及模型生命周期管理(ML Ops / LLM Ops)。
指导团队开展模型部署、性能优化、分布式训练、模型压缩、在线服务化等工程工作。
推动大模型能力在业务场景中的落地与架构级优化,保证系统的可扩展性、稳定性与安全性。
跟踪大模型前沿技术趋势,制定技术路线图并支撑中长期架构演进。
任职要求:
计算机、人工智能、数学等相关专业硕士及以上学历。
深厚的机器学习与深度学习理论基础,精通 PyTorch 等主流框架,具备大模型微调、增量训练或预训练实践经验。
熟悉行业主流大模型体系(如 Transformer、MoE、RAG、多模态模型)及推理加速技术(如 TensorRT、vLLM、DeepSpeed、XLA 等)。
至少具备 3–5 年以上系统架构经验,掌握分布式系统、微服务架构、服务治理、缓存与存储体系等核心架构能力。
熟悉 ML Ops / LLM Ops 工程体系,包括数据管线、模型版本管理、自动化评测、监控与回滚机制等。
具备较强的工程推动力、跨团队沟通能力、架构抽象能力,能够主导大型技术项目落地。
有构建大模型平台、企业级知识库、AI 原生架构经验者优先。
加分项:
在顶会(ACL、NeurIPS、ICML、EMNLP 等)有论文或相关学术成果。
主导过大模型从零到一的架构与系统落地项目。
有 GPU 集群调度、分布式训练架构(如 Megatron-LM、FSDP、ZeRO、Horovod)相关经验。
深度参与过开源大模型社区项目。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕