我们正在寻找一位经验丰富的大模型平台/基础设施工程师,加入我们关键的基础设施团队。你将专注于构建、运维和优化支撑大模型运行的平台和基础设施,确保平台的稳定、高效和安全运行。你将有机会参与构建大规模 AI 基础设施,为大模型的研发和应用提供坚实的平台支撑。
【岗位职责】
1、大模型平台/基础设施搭建与部署: 负责大模型平台/基础设施的搭建、部署和配置,包括模型服务集群、API 网关、监控系统、日志系统、存储系统等关键组件。
2、平台日常运维与监控: 负责大模型平台的日常运维工作,包括系统监控、日志分析、故障排查、性能调优等,确保平台的稳定性和可靠性。
3、平台性能优化与容量规划: 负责大模型平台的性能优化,包括系统性能调优、资源利用率提升、容量规划等,确保平台能够满足业务需求。
4、平台安全加固与风险防范: 负责大模型平台的安全加固,包括访问控制、安全审计、漏洞修复、风险防范等,确保平台的安全性。
5、平台资源管理与调度: 负责大模型平台的资源管理和调度,包括计算资源、存储资源、网络资源等,提高资源利用率,降低运行成本。
6、平台自动化运维工具开发与优化: 开发和优化自动化运维工具,提升运维效率,降低运维成本。
7、参与平台技术架构设计与演进: 参与大模型平台的技术架构设计和演进,为平台的长期发展提供技术支持。
8、解决平台运行技术问题与技术支持: 解决大模型平台运行过程中遇到的技术问题,并为研发团队和应用团队提供平台技术支持。
9、技术文档编写与分享: 撰写平台运维文档、操作手册等,沉淀平台运维经验,促进团队技术交流。
【技能要求】
1、计算机科学、信息技术、网络工程或相关专业本科及以上学历。
2、熟悉 Linux 操作系统和常用 Linux 命令。
3、熟悉云计算和容器化技术 (如 Docker, Kubernetes),有实际的容器化平台搭建和运维经验。
4、熟悉网络技术和网络安全知识,了解 TCP/IP 协议、HTTP 协议、防火墙、负载均衡等。
5、熟悉监控系统和日志系统 (如 Prometheus, Grafana, ELK Stack 等) 的搭建和使用。
6、熟悉至少一种配置管理工具 (如 Ansible, Puppet, Chef 等)。
7、熟悉至少一种编程语言 (如 Python, Go, Shell Script 等)。
8、具备良好的问题排查和故障解决能力,能够快速定位和解决平台运行问题。
9、责任心强,工作认真细致,具备良好的服务意识。优秀的沟通能力和团队合作精神。
10、对大模型平台和AI 基础设施技术发展趋势保持关注,乐于学习和探索新技术。
【加分项】
1、有大规模 AI 平台或云计算平台运维经验者优先。
2、有 GPU 集群管理和运维经验者优先。
3、熟悉大模型服务部署和优化技术 (如模型 Serving 框架、模型推理加速)。
4、熟悉数据库和存储系统 (如 MySQL, Redis, HDFS, Ceph 等) 的运维。
5、有自动化运维工具开发经验 (如 Python 脚本、Go 程序)。