职位详情
Golang 系统后端工程师
1.6-3万
北京华恒盛世科技有限公司
北京
3-5年
本科
11-26
工作地址

北京市东城区和平里东街11号航星科技园南门南侧2层

职位描述
岗位描述:

1. 负责算力调度系统后端的系统设计与核心功能开发,构建统一的多集群算力纳管与任务调度平台。

2. 实现对不同计算集群的资源纳管,构建统一资源模型与心跳上报系统。

3. 开发统一的任务接入层,提供标准化任务提交、任务状态管理、作业生命周期管理等能力,实现一套接口调度多集群。

4. 构建高并发调度控制平面,包含调度周期、事件队列、缓存、调度策略、调度插件等模块。

5. 参与万级节点规模的资源数据采集、状态同步、指标聚合架构设计与性能优化工作。

6. 在多集群基础上开发调度扩展能力,包括 GPU 资源细粒度调度、负载感知调度、能耗优化、抢占与迁移等高级调度策略。

7. 参与调度系统的高可用架构设计,包括故障恢复、状态一致性、数据缓存、流量控制等。

8. 撰写设计文档、接口文档、调度策略说明文档,参与方案评审与架构优化。

任职资格:

1. 统招本科及以上学历,计算机、软件工程、通信、自动化等相关专业;熟悉 Linux 基础、TCP/IP、系统架构等核心知识。

2. 精通 Golang,对 Goroutine、Channel、锁、内存模型等并发机制有深入理解;近 2 年有 至少 2 个 Go 语言主导或深度参与的项目经验。

3. 熟悉分布式系统原理,对心跳、调度周期、状态机、缓存、消息队列、RPC 等概念有实际开发经验。

4. 具备使用或对接过任意调度系统的经验(Slurm / Kubernetes / YARN 等),了解其资源模型与任务模型。

5. 有服务端开发经验,熟悉 REST/gRPC、Gin/Fiber 框架、MySQL/Redis/etcd 等常用组件。

6. 具备优秀的代码质量意识与工程能力,熟悉版本管理、单元测试、性能调优等工程实践。

7. 具备良好的沟通能力、责任意识与团队协作能力,对高性能、高可用系统有浓厚兴趣与追求。

加分项:

1. 有 Slurm API / REST / RPC 对接经验,或理解 Slurm 的任务模型、调度队列、资源抽象。

2. 有 Kubernetes 深度使用或二次开发经验,包括但不限于:

1)自定义 Operator

2)自定义调度器 / 调度扩展(SchedulerExtender)

3)CRD 设计

4) K8s 多集群管理

5) CSI/CNI 插件开发

6)熟悉 Volcano、Kueue、Karmada 等调度生态

3. 有多集群系统或大规模 GPU 集群经验。

4. 有数据密集型或高并发系统性能调优实践。

了解 AI 计算、GPU 调度、作业排队、GPU 多机训练场景者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请