【本科以上学历,学信网可查,能接受长期稳定驻场办公】
岗位1:GPU服务器硬件工程师
1.协助完成国产GPU功能和性能测试、产品选型。
2.协助管理GPU资源和有效分配,优化集群资源利用率,提升AI训推效率和吞吐量。
3.协助GPU集群的日常运维,包括但不限于系统部署、配置管理、监控告警、故障排查与解决,确保集群的高效稳定运行。
任职要求:
1.具有GPU服务器开发、实施、维护工作经验者优先;
2.了解GPU芯片架构,及主流国产GPU性能特性;
3.熟悉服务器硬件基础维护知识,了解GPU/NPU等异构算力资源管理逻辑;
4.对AI技术有热情,具备强烈的探索精神、优秀的动手能力、较强的问题分析解决能力,具备良好的问题解决能力和团队合作精神,及良好的文档编写和知识沉淀能力。
岗位2:系统运维运营驻场工程师
1.负责监控系统(基于 Zabbix)的日常运营与优化,包括监控对象(服务器、网络设备、中间件等)的添加、模板配置、指标验证,推动监控方式从 SNMP/ICMP 向 Agent 迁移,确保监控覆盖与业务同步。
2.主导告警管理全流程,设计并落地告警督导机制,主动跟进告警处理进度、核实真实性、推动责任方认领,清理超期未恢复告警,实现告警闭环管理。
3.挖掘深度监控需求,基于业务场景推动中间件(Kafka、Nginx、Redis 等)、数据库、业务链路的监控配置与落地,编写技术文档(如监控指南)并同步至平台文档中心。
4.推动监控流程自动化,将监控配置嵌入资源申请、回收流程,开发自动化脚本,实现资源交付时自动完成监控配置,提升效率。
5.跟踪系统故障案例,参与故障复盘,分析根因并新增监控点,优化监控规则,避免同类问题重复发生。
6.辅助日志系统(ELK)运营、扶摇平台服务台响应及其他系统日常运营工作,支撑多角色协同的监控体系。
任职要求:
1.精通 Linux 操作系统(如 CentOS、Ubuntu)的运维与故障排查,熟悉系统内核参数调优及性能指标监控。
2.精通 Zabbix 监控系统,包括架构部署、模板开发、告警规则配置、大规模集群性能调优,具备源码级问题排查与版本升级经验。
3.精通 ELK(Elasticsearch、Logstash、Kibana)日志分析平台的搭建、配置、监控与维护,能基于业务需求设计日志分析方案。
4.精通中间件(Kafka、Nginx、Redis 等)的搭建、配置、核心原理与监控实践,能独立完成故障处理及性能指标(如 Kafka 吞吐量、Nginx 连接数、Redis 内存使用率)监控配置。
5.熟悉 Kubernetes(K8s)容器编排平台,了解容器化应用的监控方案(如 Prometheus+Grafana),能支撑云原生场景下的监控落地。
6.具备较强的编程 / 脚本能力,熟练使用 Python、Shell 等编写自动化脚本、监控插件及流程对接工具。
7.了解 CMDB 系统原理,熟悉监控对象自动同步、资产识别流程,能基于 CMDB 数据优化监控覆盖。
8.具备良好的问题分析与解决能力,主动服务意识强,能高效对接系统管理员、业务团队,推动监控需求落地。
9.证书优先条件:持有 Zabbix 认证专家(ZCP)、Linux 系统认证(如 RHCE、LPIC)、Kubernetes 管理员认证(CKA)、Elastic 认证工程师等相关证书者优先。