职位详情
算力系统设施主管
2.2-3万
嘉合通盈(北京)科技产业发展有限公司
北京
10年以上
本科
02-24
工作地址

东进国际中心A座906

职位描述

岗位工作概述:


1. 负责设计、部署、优化及维护高效、可扩展的AI算力IT系统设施,包括服务器、存储、网络及安全设备等;


2. 确保用户AI研发、模型训练及推理任务的顺利进行;


深入参与从需求分析、架构设计、资源调度、性能优化到故障排查的全过程,为公司的AI算力业务发展提供坚实的算力支撑。
工作经验:

1.
具备10年以上AI算力系统或高性能计算(HPC)领域的工作经验,有成功部署和优化大规模AI计算集群的经验者优先;


2.
在大型互联网公司、科研机构或AI初创企业从事AI算力系统建设与维护的经验;


有主导或参与过至少两个大型AI算力集群的设计、部署与优化项目的优先考虑。
教育水平要求:

1. 计算机科学、信息技术、软件工程或相关专业本科及以上学历;


硕士及以上学历,或在相关领域有深入研究或突出贡献者,将优先考虑。
岗位技能要求:

1. 架构设计:能够设计高可用、可扩展的AI算力架构,包括硬件选型、网络规划、存储设计等;


2. 资源调度与优化:熟悉Kubernetes、Docker等容器化技术,以及YARN等资源调度系统,能够优化资源利用率,提升计算效率;


3. 性能调优:具备深入的系统性能调优能力,包括CPU、GPU、内存、网络、存储等各方面的优化;


4. 自动化运维:熟悉Ansible、Puppet等自动化运维工具,能够编写自动化脚本提升运维效率;


5. 故障排查与应急响应:能够快速响应系统故障,准确排查问题根源,并制定有效的解决方案。
工作职责与任务:

1.
系统规划与设计:根据公司业务需求,规划并设计AI算力系统的整体架构,包括硬件选型、网络布局、存储策略等。


2.
部署与集成:负责AI算力集群的部署、配置与集成,确保系统稳定运行。


3.
性能优化:对AI算力任务进行性能分析,提出并实施优化方案,提升计算效率。


4.
运维管理:负责日常运维工作,包括系统监控、日志分析、故障排查与解决等。


5.
技术创新与研究:跟踪AI算力领域的最新技术动态,探索并引入新技术,提升系统竞争力。


团队建设与培训:指导并培养初级工程师,提升团队整体技术水平。
其他素质要求:

1. 具备自驱力:具备工作主动性和自我驱动学习能力;


2.
问题解决:具备较强的问题分析和解决能力,能够独立或协助解决复杂的技术问题;


沟通能力:良好的沟通能力和团队合作精神,能够与不同部门有效协作,推动项目进展。




以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请