职位描述
岗位职责:
1、负责智算中心项目基础设施的运维管理,包括算力调度平台、算力、网络、储存和安全等方面;
2、管理和维护智算中心的稳定运行,包括硬件和软件的维护、系统安装、硬件维护、拆装网卡、GPU,以及简单维修等工作;
3、协助机房对设备进行日常巡检、保障处理等工作;
4、跟踪智算中心项目事件进度,协调各方资源,确保项目按时按质完成;
5、对智算中心的运行情况进行风险评估和管理,保障集群的正常运转;
6、协助进行项目团队的建设和管理,提升团队的综合素质和工作效率;
任职要求:
1、熟悉人工智能、云计算等领域的技术和产品,
2、了解主流模型deepseekR1、llama3、千问等模型产品的使用;
3、 理解大模型推理优化技术(vLLM、TGI、FlashAttention、量化推理等)。
4、熟悉主流深度学习框架(PyTorch、TensorFlow)及分布式训练技术(FSDP/Deepspeed/Megatron-LM)。
5、熟悉算力中心或数据中心机房的基础设施,掌握服务器和IT设备基础设施及强弱电相关知识;
6、熟悉Linux平台,有K8S 组件运维经验,对服务器进行基础维护与管理;
7、具备GPU集群管理经验(如NVIDIA DGX/SuperPOD),熟悉CUDA、NVLink、RDMA网络。 ;
8、具备良好的沟通技巧和团队合作能力,能够有效地传达和解决问题,协调不同部门之间的需求和资源;
9、有算力中心和数据中心架构设计和运维经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕