职位描述
岗位职责
1. 基于 Go 语言设计并实现 AIOps 核心引擎:指标异常检测、日志聚类、调用链根因定位、故障预测与自愈;
2. 负责 GPU/CPU 混合集群的智能调度与弹性伸缩,将 LLM 训练/推理任务的资源利用率提升 30%+;
3. 与算法团队协作,将 Python 训练好的模型(PyTorch/ONNX)通过 gRPC 或 cgo 嵌入 Go 服务,完成在线推理与灰度发布;
4. 建设 MLOps 工作台:数据版本管理(DVC)、模型版本管理(MLflow)、A/B 实验、自动重训练与漂移检测;
5. 负责云原生可观测性体系(Prometheus+Grafana+Loki+Tempo),对 AI 组件(GPU 利用率、显存碎片、NCCL 通信)定制专属告警规则;
6. 编写 Operator 管理异构算力节点(NVIDIA/AMD/昇腾),实现驱动-容器-调度器一站式生命周期管理。
3. 任职要求
1. 本科及以上学历,计算机/数学/自动化等相关专业,1~5 年 Go 后台研发经验;
2. Go 语言:熟悉 goroutine、channel、context、内存模型、GC 调优,能写 10w+ QPS 无锁服务;
3. AI 工程化经验:
- 熟悉常见时序/异常检测算法(Isolation Forest、Prophet、LSTM、GNN);
- 有 Python 交叉开发经验,能在 Go 中通过 os/exec、cgo、grpc 调用 PyTorch/ONNX 模型;
4. 云原生:
- Kubernetes 源码级问题定位,能写 CRD/Controller/Operator;
- 熟悉 Karpenter/Volcano 等弹性调度器,对 GPU 共享、MIG、NVLink 拓扑调度有实践;
5. 数据库:Kafka、Pulsar、Redis-Stream、InfluxDB、Elasticsearch、向量数据库;
6.可观测性:Prometheus exporter 自定义、Grafana 模板即代码、OpenTelemetry 自动注入;
7. 算法平台加分:使用过 Kubeflow、MLflow、Ray、KubeRay、DeepSpeed、vLLM;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕