职位描述
岗位职责:
1、负责维护所分配软件系统的7x24小时稳定运行。
2、维护和优化高可用、可扩展的生产环境基础设施(服务器、网络、存储等)。
3、负责生产环境及应用服务的部署、升级、回滚、配置管理。
4、监控和分析系统性能指标(CPU、内存、磁盘、网络、应用性能等),识别瓶颈并推动优化。
5、优化资源利用率,进行成本分析和管理,寻求降低基础设施成本的有效途径。
6、与商务、销售、工程等部门有效沟通,共同保障产品质量和服务水平。
7、快速响应和处理线上生产事故,主导或参与故障排查、诊断、恢复。
8、进行故障复盘分析,撰写故障报告,推动根本原因解决和预防措施的落地。
技能要求:
1、熟练掌握至少一种主流Linux发行版(如CentOS/RHEL, Ubuntu, Debian)的安装、配置、管理、优化和故障排查。
2、扎实的TCP/IP、HTTP/HTTPS、DNS、防火墙等网络协议和原理知识。
3、能够进行网络问题诊断(如tcpdump, netstat, traceroute, ping等工具的使用)。
4、熟练掌握至少一种脚本语言(Shell/Python 必备),能编写高效、可维护的自动化脚本
5、了解或掌握至少一门编程语言(如Go, Java, Ruby)者优先,有助于理解应用和开发运维工具。
6、强烈的责任心和主动性,能在压力下冷静处理紧急故障。
7、优秀的沟通协作能力和团队合作精神。
8、持续学习的能力,对新技术保持敏感和热情。
9、有电力相关运维或开发经验者优先。
10、熟练使用日志收集、分析和可视化工具。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕