职位描述
一、 核心工作职责
1. 协助团队完成私有云平台(如 Cloudpods/OpenStack/VMware vSphere)基础资源管理,包括虚拟机(VM)、云硬盘、内网子网、安全组及主流GPU服务器的创建、配置与日常巡检,整理资源台账(含GPU资源信息)并同步更新;了解主流GPU服务器型号及核心参数,配合完成GPU资源的基础状态核查。
2. 辅助开展私有云容器化环境运维,配合完成Docker镜像拉取、Harbor仓库基础管理,协助K8s集群的Pod状态查看、服务启停及简单故障排查,记录操作过程与问题;若涉及AI模型部署场景,可配合完成容器环境的基础适配。
3. 配合搭建和维护私有云监控体系,基于Prometheus+Grafana、平台内置监控工具查看资源运行状态,重点协助监控GPU服务器算力、显存及主流AI模型运行相关资源占用情况,收集监控数据、告警信息,整理故障日志。
4. 协助执行私有云数据备份与恢复工作,配合完成虚拟机快照、数据库备份及AI模型文件的基础备份操作,参与备份恢复测试,整理测试报告与操作记录。
5. 辅助推进运维自动化落地,在指导下学习使用Ansible/Python编写简单脚本,尝试实现批量命令执行、基础配置下发等重复性工作的简化;若涉及GPU资源或模型相关运维场景,可配合完成脚本的基础调试。
6. 配合整理私有云运维文档,包括操作手册、故障处理步骤、资源清单(含GPU服务器及模型相关信息)等,确保文档规范、可追溯,协助完成团队交办的其他基础运维工作。
二、 任职要求
1. 计算机相关专业(本科及以上,在校学生),具备扎实的计算机基础知识,熟悉Linux操作系统基础操作,掌握常用Shell命令。
2. 对私有云、云计算、容器化技术有浓厚兴趣,愿意学习主流私有云平台(Cloudpods/OpenStack/VMware)及核心组件(虚拟机、私有网络、云存储);对主流GPU服务器及AI模型有基础认知者优先。
3. 了解Docker基础概念,对K8s有初步认知(如Pod、Service)即可,有校园实训、课程设计中接触容器技术或AI模型部署基础经验者优先。
4. 掌握TCP/IP协议基础,了解子网划分、安全组等网络知识,能使用ping、traceroute等工具排查简单网络问题。
5. 了解MySQL基础操作,知晓数据库备份、恢复的基本逻辑,有基础数据操作经验者加分;若了解AI模型文件存储、管理基础逻辑,可额外加分。
6. 了解主流GPU服务器(如NVIDIA系列)的基础型号、核心参数,对常见AI模型(如大语言模型、计算机视觉模型)有初步认知,愿意学习GPU资源运维及模型部署相关基础工作。
7. 学习主动性强,具备良好的逻辑思维和问题分析能力,善于沟通协作,工作认真细致,有基本的文档编写能力。
8. 加分项(非必需):具备简单Shell/Python脚本编写基础;自学过私有云/容器/GPU相关技术;参与过校园AI项目、私有云实训项目或开源项目。
三、 核心潜力加分项
- 有校园私有云、容器化、AI模型部署相关实训项目、课程设计经验,或自学过OpenStack/VMware、GPU服务器基础操作。
- 能独立编写简单Shell/Python脚本(如批量文件处理、基础命令自动化),有脚本学习或实践记录;若有适配GPU资源、模型相关脚本编写经验更佳。
- 持有云计算/虚拟化入门级认证(如VMware VCA、阿里云ACA),或参与过AI、云计算相关技术竞赛。
- 熟悉Prometheus、Grafana基础使用,有搭建简单监控面板(含GPU资源监控)的实践经验(含自学实践)。
- 了解云原生基础工具(如Jenkins)、私有云安全基础常识,或对主流AI模型部署流程有基础了解,对技术有清晰的学习规划。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕