1.2-1.8万
安擎算力(上海)数字科技有限公司
岗位职责:
1. 负责GPU设备装机,单机压测,故障排查,维修;
2. 根据基线要求,配置并升级服务器BIOS,BMC,网卡,GPU等固件;
3. 负责实施硬件监控系统,主动管理设备健康状态、温度、电源使用情况及容量,定期提供系统状态报告及性能分析;
4. 响应线上故障,判断是否硬件导致,主要从demsg 、syslog 、lspci 、监控判断,解决分析问题并记录,揪 出根因,思考后续如何避免类似问题;
5. 制定和执行硬件管理的标准操作流程(SOP);
6. 负责大规模GPU算力集群的日常运维、部署、扩容及变更管理;
7. 具备高速数据中心网络基础知识,能与网络团队协作,排查与硬件相关的网络互联性能问题;
8. 与AI框架、算法团队紧密协作,为模型训练任务提供稳定、高性能的算力基础设施支持;
9. 参与算力资源的容量规划与管理,监控集群利用率,为硬件采购和资源调度提供数据支持。
任职要求:
1. 电气工程、计算机工程、信息技术或相关专业本科及以上学历;
2. 至少2年以上数据中心硬件运维经验;
3. 熟悉GPU服务器技术,尤其是Nvidia主流的设备;
4. 熟悉硬件监控工具(IPMI、Nagios、Prometheus等);
5. 较强的故障排查、分析和解决能力;
6. 了解数据中心网络基础,对InfiniBand或高性能以太网有接触者优先;
7. 具备良好的沟通能力,能与其他技术团队高效协同。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕