1.4-1.6万
北京市东城区和平里东街11号航星科技园南门南侧2层
1. 负责算力调度系统后端的系统设计与核心功能开发,构建统一的多集群算力纳管与任务调度平台。
2. 实现对不同计算集群的资源纳管,构建统一资源模型与心跳上报系统。
3. 开发统一的任务接入层,提供标准化任务提交、任务状态管理、作业生命周期管理等能力,实现一套接口调度多集群。
4. 构建高并发调度控制平面,包含调度周期、事件队列、缓存、调度策略、调度插件等模块。
5. 参与万级节点规模的资源数据采集、状态同步、指标聚合架构设计与性能优化工作。
6. 在多集群基础上开发调度扩展能力,包括 GPU 资源细粒度调度、负载感知调度、能耗优化、抢占与迁移等高级调度策略。
7. 参与调度系统的高可用架构设计,包括故障恢复、状态一致性、数据缓存、流量控制等。
8. 撰写设计文档、接口文档、调度策略说明文档,参与方案评审与架构优化。
任职资格:1. 统招本科及以上学历,计算机、软件工程、通信、自动化等相关专业;熟悉 Linux 基础、TCP/IP、系统架构等核心知识。
2. 精通 Golang,对 Goroutine、Channel、锁、内存模型等并发机制有深入理解;近 2 年有 至少 2 个 Go 语言主导或深度参与的项目经验。
3. 熟悉分布式系统原理,对心跳、调度周期、状态机、缓存、消息队列、RPC 等概念有实际开发经验。
4. 具备使用或对接过任意调度系统的经验(Slurm / Kubernetes / YARN 等),了解其资源模型与任务模型。
5. 有服务端开发经验,熟悉 REST/gRPC、Gin/Fiber 框架、MySQL/Redis/etcd 等常用组件。
6. 具备优秀的代码质量意识与工程能力,熟悉版本管理、单元测试、性能调优等工程实践。
7. 具备良好的沟通能力、责任意识与团队协作能力,对高性能、高可用系统有浓厚兴趣与追求。
加分项:1. 有 Slurm API / REST / RPC 对接经验,或理解 Slurm 的任务模型、调度队列、资源抽象。
2. 有 Kubernetes 深度使用或二次开发经验,包括但不限于:
1)自定义 Operator
2)自定义调度器 / 调度扩展(SchedulerExtender)
3)CRD 设计
4) K8s 多集群管理
5) CSI/CNI 插件开发
6)熟悉 Volcano、Kueue、Karmada 等调度生态
3. 有多集群系统或大规模 GPU 集群经验。
4. 有数据密集型或高并发系统性能调优实践。
了解 AI 计算、GPU 调度、作业排队、GPU 多机训练场景者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕