职位描述:
1、系统监控与告警:
负责核心业务系统的日常监控,确保监控覆盖全面、指标合理有效。
配置、维护和优化告警规则,确保告警及时、准确、有效,减少误报漏报。
及时响应并初步评估告警信息。
2、故障响应与处理:
快速定位问题根因并实施有效解决方案,最大限度减少故障影响范围和时长。
负责或参与故障复盘,深入分析故障原因,制定并跟进改进措施(包括但不限于技术改进、流程优化),形成知识库沉淀。
3、性能分析与优化:
定期进行系统性能分析,主动发现潜在瓶颈(如慢SQL、接口RT过高、资源消耗异常等)。
制定并执行性能优化方案,提升系统吞吐量、降低延迟、提高资源利用率。
进行容量评估和规划。
4、稳定性保障体系建设与实施:
参与设计和实施提升系统稳定性、容错性和可观测性的解决方案(如完善限流熔断策略、优化重试机制、增强日志和链路追踪、提升监控能力等)。
参与制定和执行变更管控流程,确保上线、配置变更等操作对稳定性的影响可控。
参与应急预案的制定、演练和维护。
5、技术债务清理与日常维护:
负责对现有系统进行维护和迭代,修复已知缺陷和安全漏洞。
识别并逐步清理技术债务,提升代码质量和系统可维护性。
负责处理日常的服务请求和用户反馈中涉及系统稳定性的问题。
6、加分项:3年及以上Java后端开发经验
任职要求:
1、基础经验与技能:
精通Java语言核心特性和常用类库,理解JVM基本原理(内存模型、垃圾回收机制、类加载机制、常用性能监控工具如jstat, jmap, jstack等)。
熟练掌握主流Java开发框架(Spring Boot, Spring Cloud, Spring MVC, MyBatis/Hibernate等)及其核心原理。
熟悉主流数据库(MySQL, PostgreSQL等)的使用、设计、优化和常见问题排查(慢查询、锁、事务)。
熟悉常用中间件(Redis/Memcached, RabbitMQ/Kafka, Elasticsearch等)的原理、使用、配置优化及常见问题处理。
熟练掌握Git等版本控制工具,熟悉Maven/Gradle等构建工具。
熟悉Linux操作系统常用命令,具备基本的运维能力(日志查看、进程管理、简单脚本编写)。
2、系统稳定性核心能力:
强烈的系统稳定性意识和责任心: 深刻理解系统稳定性对业务的重要性,对线上问题有高度的警惕性和快速响应意愿。
扎实的问题排查与定位能力:
具备丰富的线上故障排查经验,能快速定位和解决JVM问题(OOM、GC频繁、线程死锁)、数据库问题、中间件问题、网络问题、性能瓶颈等。
3、性能调优经验:
有实际的系统性能瓶颈分析、定位和调优经验,能对JVM、SQL、缓存、消息队列、接口响应等进行有效优化。
4、高可用设计理解:
理解常见的高可用架构设计模式(如集群、负载均衡、熔断、降级、限流、重试)并能应用于实践或问题解决。
5、软技能:
良好的沟通协作能力,能够清晰表达技术问题并专业开发、测试、运维、产品等团队有效协作。
优秀的学习能力和技术热情,能快速学习新技术并应用于解决实际问题。
严谨的逻辑思维和分析能力,面对复杂问题能抽丝剥茧,找到关键点。
抗压能力,能冷静、高效地处理线上紧急故障。
文档习惯,能清晰记录问题分析过程、解决方案和系统运行状态。
要求:大学本科及以上学历;计算机类、计算机(软件)类、计算机(网络管理)类、电子信息类;