2年以上工作经验;
本科及以上学历,计算机相关专业
工作内容:
1. 负责公司智能代码助手(大模型产品)的部署、实施和环境配置,保障系统稳定持续运行;
2. 搭建和维护基于 Kubernetes(K8s)和 Docker 的容器化部署环境,实现应用与模型服务的自动化部署和管理;
3. 参与部署流水线的设计与优化,提升产品交付效率和部署质量;
4. 负责应用服务器、数据库、中间件及大模型相关服务(如推理服务、API服务等)的安装、配置、升级与维护;
5. 协助开发、算法团队定位和解决在部署、运行中出现的环境、网络及模型服务相关问题;
6. 编写和维护部署、运维相关的文档及自动化脚本,持续改进运维流程,提升系统可维护性和自动化水平;
7. 负责系统安全、数据备份、服务监控等的配置与优化,确保大模型服务的高可用与安全合规;
8. 定期对系统进行巡检,保障系统安全、稳定、高效运行。
岗位要求:
1. 本科及以上学历,计算机相关专业优先,2年以上软件部署实施或运维相关经验;
2. 熟练掌握 Linux 操作系统,能够独立完成系统环境搭建及故障排查;
3. 精通 Docker、Kubernetes 等容器化技术,有实际生产环境部署及维护经验;
4. 具备良好的网络基础知识,能够排查和解决常见网络故障,理解 TCP/IP、HTTP、DNS 等协议原理;
5. 熟练掌握 Shell 脚本,能用 Python 或 Java 编写自动化脚本或工具者优先;
6. 熟悉常用中间件(如 Nginx、Redis、Kafka、MySQL 等)的安装、配置和优化;
7. 具备良好的沟通能力、团队协作意识和较强的责任心,能积极推动项目落地;
8. 具备较强的问题分析与解决能力,能承担一定的工作压力。
经验要求:
1. 有大模型产品(如AIGC、智能代码助手、LLM等)部署和运维经验优先;
2. 有 GPU/AI 算力资源管理经验,熟悉 CUDA、NVIDIA 驱动及 K8s 下 GPU 资源编排的优先;
3. 熟悉模型监控及日志收集方案(如 Prometheus、ELK 等)优先;
4. 有与 AI 算法、模型开发团队协作的经验,能理解产品迭代和上线流程;
5. 有 Helm等 K8s 生态工具使用经验;