职位描述
职位描述 在这个角色中,你将负责交付、测试和优化支撑大规模人工智能模型训练与推理的核心基础设施。你将直接与模型研究团队协作,致力于将前沿的AI算法高效、稳定地部署于生产环境。 核心职责 * 分布式训练与优化:按照SOP交付测试大模型训练框架和推理服务,对GPU计算、通信和存储进行系统性性能调优。 * 推理部署与加速:部署高可用、低延迟的分布式推理系统,熟练使用vLLM、TensorRT-LLM等工具。 * 基础设施与协作:与云工程师和研发团队紧密合作,共同维护AI基础设施,确保其可靠性、可扩展性,并为客户提供稳定可靠的训练、推理解决方案。 * 响应客户问题与需求:处理模型适配、运行与监控工作 必备技能 * 熟悉 PyTorch 或 TensorFlow 深度学习框架,理解其核心机制。 * 熟悉Python开发语言 * 了解Kubernetes和Docker的基本原理,并拥有使用经验。 * 了解RDMA网络。 * 出色的解决问题能力、团队协作精神和对技术的强烈热情。 优先考虑条件 * 有使用DeepSpeed、vLLM等框架进行大模型分布式训练或推理的实战经验。 * 熟悉NCCL、RDMA、MPI等通信库,了解分布式系统知识。 * 拥有在主流云平台上部署ML模型的实践经验。 * 计算机或AI相关专业优秀应届生或1年以上运维交付经验 能够接受7*24值班排班
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕