职位摘要:我们正在寻找一位有才华的AIDC SRE7*24(三班倒班模式)IT值班运维工程师加入我们的团队,负责轮班维护和改进我们AI数据中心的基础设施。您将负责确保支持我们的AI应用程序的系统的可靠性、可扩展性和性能。
主要责任:
•监控和管理硬件基础设施的健康和性能,处理各种7*24支持中的主机,网络,存储等设备的问题。
•设计和实施解决方案以提高硬软件系统的可靠性、可扩展性和性能。
•与网络,存储工程师及其他SRE密切合作,排除和解决AIDC相关的问题。
•与各供应商沟通合作,确保提供最佳解决方案来满足我们的值班需求。
•参与值班轮换,为AIDC基础设施提供全天候(24/7)支持。
任职资格:
•计算机、电气、电子等相关领域的统招专科及以上学位。
•2年以上担任IDC值班运维或相关角色的经验。
•具有IDC硬件、操作系统及应用测试,运维和故障排除方面的相关经验。
•了解数据中心架构,包括服务器、存储、网络和电源系统。
•熟悉Linux服务器常用操作和管理。
•强大的分析和解决问题的能力。
•出色的沟通和团队合作能力。
优先资格:
•具有人工智能和机器学习硬件(例如GPU,IB交换机,以太交换机)的经验优先。
•熟悉脚本语言优先,例如Python或Bash。
•熟悉数据中心冷却和通风系统知识优先。
•善于使用AI工具辅助完成工作。