职位描述
职位描述
一、岗位职责
1. 兼容性测试:针对不同型号的服务器及相关硬件设备,如各类品牌的GPU卡、内存、存储等,制定并执行全面的兼容性测试方案。模拟实际业务场景,检测设备在不同负载、环境下的协同工作情况,详细记录测试数据与问题表现,出具专业测试报告,为设备选型与采购提供有力依据 。
2. 硬件问题定位与排障:当服务器出现硬件故障时,迅速响应,运用专业工具和丰富经验,对板卡、电源、散热等子系统进行交叉验证和检测,准确判断故障根源。高效完成故障硬件的更换与修复工作,确保服务器在最短时间内恢复正常运行,同时总结故障原因与解决方法,形成知识库,为后续维护提供参考 。
3. 新设备评测:负责对新上市或新采购的服务器设备进行全方位评测,包括性能测试,如使用专业的Benchmark工具测试算力、显存带宽等;稳定性测试,长时间满负荷运行检测设备可靠性;功耗测试,评估不同工作状态下的能耗水平 。结合实际业务需求,分析设备优缺点,为公司采购决策提供专业建议,助力引入性能卓越、性价比高的设备 。
4. 现场技术支持:为一线运维团队提供远程或现场技术支持,协助其快速定位和解决现场故障设备问题。在紧急故障发生时,迅速赶赴现场,指导一线人员进行应急处理,确保业务连续性不受影响。同时,对一线人员进行技术培训,提升其故障诊断与处理能力,建立有效的沟通机制,及时了解现场需求并提供针对性解决方案 。
二、任职要求
1. 专业背景:本科以上学历,计算机科学与技术、电子信息工程、电气工程等相关专业,具备扎实的专业理论基础 。
2. 工作经验:3年以上服务器相关工作经验,有数据中心、云计算、人工智能等行业工作经历者优先 。
3. 技能要求
- 熟悉多种GPU服务器架构,如NVIDIA DGX、HGX等,深入了解GPU硬件原理与性能指标 。
- 熟练掌握服务器硬件故障诊断方法与工具,具备丰富的硬件维修经验,能够快速定位并解决各类硬件问题 。
- 精通服务器兼容性测试流程与方法,熟悉常见硬件设备的兼容性问题及解决策略 。
- 掌握至少一种自动化测试工具和脚本语言,如Python、Shell等,能够编写测试脚本,提高测试效率 。
- 具备良好的沟通能力与团队协作精神,能够与不同部门有效沟通,共同解决技术难题 。
4. 其他要求:能够适应不定期的加班和紧急故障处理,具备较强的抗压能力和责任心 。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕