职位描述
岗位职责
1.负责智能网卡服务Oncall,处理用户关于智能网卡功能异常、性能瓶颈、权限开通等咨询,输出故障分析报告及优化建议(如RDMA延迟优化、VxLAN配置调优);推动智能网卡服务流程标准化,建立常见问题知识库,缩短故障平均恢复时间(MTTR)。
2.负责智能网卡运维,负责智能网卡告警处理、建立分级告警、提升告警有效性,推动告警自动化处置及工具建设; 负责智能网卡版本升级工作,推动升级自动化流程和工具建设;编写运维文档(SOP、故障处理手册),推动运维流程标准化;
3.负责智能网卡运维质量,缺陷改进推动、长期问题跟进、供应商对接、运营质量数据统计分析、报表制作输出等。
任职要求
1.大学专科及以上学历,2年及以上云计算基础设施运维经验;
2.掌握Linux操作系统、Shell/Python脚本开发,熟悉网络协议(TCP/IP、VxLAN、RDMA),熟悉云计算架构(虚拟化、容器化),具备数据中心物理/虚拟网络运维经验;
3.熟悉FPGA/DPU、PCIE、SPDK等技术,熟练使用相关工具,具有DPDK/SPDK/Virtio驱动开发或调优经验、熟悉服务器硬件,持有云计算或网络认证者优先;
4.具备多部门协作能力,良好的沟通表达能力,对智能网卡相关技术有热情,主动追踪智能网卡技术演进(如DPU编程模型、eBPF卸载技术),能通过工具研发提升运维效率。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕