职位详情
智算中心算力运营专家
1-2万
江苏三江天地科技发展有限公司
北京
3-5年
本科
11-13
工作地址

菜市口

职位描述
岗位职责:
1.开展公司两级智算中心算力相关的运营工作,主要内容包括算力资源管理、算力技术支持、算力培训推广、算力两级协同等内容;
2.负责围绕模型训练与推理任务对算力相关需求,构建统一规范、动态调度、安全可控的两级算力运营体系,并输出相关的算力运营标准;
3.负责算力需求受理及算力需求核算等工作,针对训练场景、推理场景能够建立算力-模型匹配关系,并借助压测手段给出匹配最优算力资源的建议,核算算力需求后进行分配;
4.负责算力调度相关技术的研究和实施,能够根据算力资源指标监控等技术,对不同场景算力资源应用趋势提出总结建议,并能够进行弹性扩缩容;
5.负责算力运监监测指标的梳理,能够基于监测技术构建算力运营指标监测体系,帮助开展算力资源规划设计关工作;
6.精通AI基础设施和人工智能软件,能够定期对市面上主流的大模型、人工智能芯片、无损网络等软硬件产品开展调研,并形成调研报告,指导公司后续智算中心算力规划和建设。
任职要求:
1.本科及以上学历,计算机/电子工程相关专业;具备3年以上GPU集群/智算中心运维运营经验;熟悉Python、Ansible,有一定的编程能力;
2.精通人工智能大模型训练微调、推理部署全栈流程,能够与模型研发团队协作预估算力需求,具备分析训练微调、推理部署任务日志,进行简单问题定位能力;
3.精通Kubernetes/Docker容器化技术,具备设计GPU/NPU集群调度策略,优化资源利用率,实现算力资源的高效利用的能力;
4.对算力-模型匹配关系有深度认知,熟悉模型部署与压测相关技术,能够针对模型特性,通过压测手段给出匹配最优算力资源的建议;
5.精通promethous/Grafana等监控软件,能够通过预埋探针检测算力使用瓶颈,并建立弹性伸缩机制,输出算力效能分析报告等能力;
6.熟悉智算中心训练微调、推理部署场景下相应的组网方案,能够给出组网规划;
7.熟悉NVIDIA CUDA生态或华为昇腾CANN生态及Pytorch、TensorFlow、SGLang、Vllm等主流AI框架;
8.有智算中心算力、平台、模型、智能体整体规划设计和建设实施工作经验的可以优先考虑;
9.对工作充满激情,富有责任心,沟通能力强,能承受工作压力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请