职位描述
1、负责AI相关配套资源的运维和管理支持工作,与供应商对接问题,保证资源可用性。
2、负责公司 GPU 平台的可用性支持,问题答疑,保证任务的稳定性。
3、保障大模型服务的可用性,包括升级,部署,运维相关工作
4、推动 AI服务的高可用性建设,能持续发现问题并推动演进。
任职资格
1、熟悉 Linux/Kubernetes/Prometheus/Grafana的基本知识和操作;
2、熟悉 Shell/Python 两种语言,能够进行工具开发工作;
3、熟悉 GPU 基本知识,包括型号,算力,网络,有基础的排障能力;
4、熟悉主流云厂商的云服务与控制台操作;
4、对大语言模型服务的全链路有基本认知;
5、善于团队协作,具备良好的沟通能力和责任心;
加分项:
1、有 大语言模型/GPU运维经验;
2、有 MCP Server/Agent的开发经验
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕