东进国际中心A座906
岗位工作概述:
1. 负责设计、部署、优化及维护高效、可扩展的AI算力IT系统设施,包括服务器、存储、网络及安全设备等;
2. 确保用户AI研发、模型训练及推理任务的顺利进行;
1.
具备10年以上AI算力系统或高性能计算(HPC)领域的工作经验,有成功部署和优化大规模AI计算集群的经验者优先;
2.
在大型互联网公司、科研机构或AI初创企业从事AI算力系统建设与维护的经验;
1. 计算机科学、信息技术、软件工程或相关专业本科及以上学历;
1. 架构设计:能够设计高可用、可扩展的AI算力架构,包括硬件选型、网络规划、存储设计等;
2. 资源调度与优化:熟悉Kubernetes、Docker等容器化技术,以及YARN等资源调度系统,能够优化资源利用率,提升计算效率;
3. 性能调优:具备深入的系统性能调优能力,包括CPU、GPU、内存、网络、存储等各方面的优化;
4. 自动化运维:熟悉Ansible、Puppet等自动化运维工具,能够编写自动化脚本提升运维效率;
1.
系统规划与设计:根据公司业务需求,规划并设计AI算力系统的整体架构,包括硬件选型、网络布局、存储策略等。
2.
部署与集成:负责AI算力集群的部署、配置与集成,确保系统稳定运行。
3.
性能优化:对AI算力任务进行性能分析,提出并实施优化方案,提升计算效率。
4.
运维管理:负责日常运维工作,包括系统监控、日志分析、故障排查与解决等。
5.
技术创新与研究:跟踪AI算力领域的最新技术动态,探索并引入新技术,提升系统竞争力。
1. 具备自驱力:具备工作主动性和自我驱动学习能力;
2.
问题解决:具备较强的问题分析和解决能力,能够独立或协助解决复杂的技术问题;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕