职位描述
一、岗位核心定位
依托 Golang 开发能力支撑训推平台与调度系统建设,衔接 AI 技术与云资源调度,保障 AI 任务高效运行。
二、核心工作内容
开发 AI 训推平台核心模块,支撑大模型训练、推理任务的调度与管理。
完成 AI 任务的容器化部署与资源调度逻辑实现。
参与智算资源(GPU/TPU 等)调度优化,适配 AI 任务的资源需求特性。
解决 AI 场景下的云原生技术问题,如训推任务容器化适配、资源冲突等。
配合团队完成智能体相关系统的基础开发与集成工作。
三、核心技能要求
3/5/8 年 + Golang 后端开发经验,精通并发编程、内存管理及性能优化,有 AI 平台开发经验优先。
熟悉 K8s 基本概念,理解容器化和微服务架构,能通过 SDK(如 client-go)进行集群资源操作与任务调度。
了解人工智能核心技术:包括模型训推流程、大模型部署特性、智能体基础原理。
知晓智算资源(GPU 等)管理逻辑,能适配 AI 任务的资源调度需求。
掌握 Prometheus 等监控工具基础使用,具备技术问题快速排查能力。
良好的跨团队协作意识,能高效对接 AI 算法与运维团队。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕