职位详情
运维工程师
1.2-1.5万
深圳市中誉艾科科技有限公司
深圳
3-5年
本科
09-09
工作地址

曙光大厦1212

职位描述
岗位职责
1.负责人力资源业务系统的稳定性建设,如WEB服务、APP后端、API网关、用户行为日志等;构造和维护高可用、可扩展的服务架构,提升系统容灾能力和故障恢复效率;
2.设计并实现自动化监控、告警、发布、扩缩容等系统运维流程,深度参与CI/CD流水线设计与优化,推动DevOps和自动化落地;
3.负责大模型训练与推理所需的 GPU 服务器及 CPU 服务器的日常运维工作,包括服务器的环境配置、部署、监控、故障排查与修复,保障服务器硬件设备稳定运行。
4.制定并执行服务器定期巡检计划,记录巡检数据,分析潜在风险,提前预警并解决服务器性能瓶颈、硬件故障等问题,确保服务器资源利用率达到最优水平。
5.负责企业应用相关服务的安全防护工作,制定并落实服务器安全策略,包括操作系统安全加固、账号权限管理、防火墙配置、数据备份与恢复方案等,防范网络攻击、数据泄露等安全风险。
6.监控服务器运行状态,实时跟踪服务响应时间、并发量、错误率等关键指标,当服务出现异常时,快速定位问题根源,协调相关资源进行紧急处理,保障服务可用性与稳定性,降低服务中断时长。
7.参与制定服务应急预案,定期组织应急演练,提升团队应对突发故障的能力,确保在极端情况下能快速恢复大模型服务运行。
8.编写运维工具、脚本及技术分享文档。
任职要求
1.学历与专业:计算机科学与技术、电子信息工程、软件工程等相关专业,3 年及以上服务器运维或后端开发相关工作经验。
2.服务器运维能力:熟悉 GPU 服务器(NVIDIA 系列优先)及 CPU 服务器的硬件架构与工作原理,掌握服务器运维常用工具(如 Ansible、Prometheus、Grafana 等)的使用方法,具备独立完成服务器故障排查与修复的能力。
3.操作系统与网络知识:熟悉 Linux系统原理,熟悉 TCP/IP 协议栈,具备网络故障排查能力,了解防火墙、负载均衡等网络设备的配置与使用。
4.编程与工具能力:具备扎实的编程基础,熟练至少一种主流编程语言如C/C++、Python、Shell 等;熟悉 Docker 容器技术;
5.安全意识与应急处理:具备强烈的服务安全意识,熟悉常见的网络安全威胁与防护措施,掌握数据备份与恢复方法;具备良好的应急处理能力,能够在服务出现故障时快速响应、高效解决问题。
6.沟通与协作:具备良好的沟通表达能力与团队协作精神,能够清晰准确地与跨部门团队沟通技术需求与解决方案,积极配合团队完成项目任务;具备较强的学习能力与抗压能力,能够快速适应新技术、新业务,应对工作中的挑战。
加分项:
1. 熟悉vLLM、SGLang等推理框架,有AI模型部署和运维工程落地经验;
2. 能独立完成服务器性能测试,熟悉软件测试的流程与方法

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请