工作职责:
1、操作系统管理:负责 Linux/Windows 服务器的安装、配置、维护和优化,包括用户管理、权限控制、软件安装、补丁更新、性能调优等。
2、容器技术: 熟悉 Docker、Swarm、Kubernetes 等容器技术,负责容器的部署、管理、监控和故障排除。
3、人工智能: 熟悉主流 GPU 性能性能参数,熟悉 Langchain 等主流LLM编程框架与 Milvus 等主流向量数据库的部署调优排错。
4、网络管理: 负责公司和客户的网络架构的规划、部署、维护和优化,包括路由器、交换机、防火墙等网络设备的配置和管理,以及网络故障的排查和解决。
5、持续集成:负责搭建运维自动化发布平台,与 git 仓库结合,实现容器镜像制作、制品库发布等功能;
6、监控系统:负责搭建和维护系统监控平台,对服务器、网络、应用等进行实时监控,及时发现和预警潜在问题。
7、故障排除:负责系统故障的快速定位、分析和解决,并撰写故障报告,提出改进建议,防止类似问题再次发生。
8、自动化运维:积极研究和应用自动化运维工具和技术,提高运维效率和质量。
9、文档编写:编写和维护系统运维相关文档,包括操作手册、故障处理手册、应急预案等。
10、团队合作:与其他团队成员紧密合作,共同完成项目任务,并积极分享经验和知识。
任职要求:
1、学历:计算机科学、信息技术或相关专业本科及以上学历。
2、经验:3 年以上系统运维相关工作经验,有大型互联网公司工作经验者优先。
3、技能:
- 精通 Linux/Windows 操作系统,熟悉 Shell/Python 等脚本语言。
- 熟悉 Docker、Swarm、Kubernetes 等容器技术,有实际项目经验。
- 熟悉 Langchain、Milvus 等 AIGC技术相关技术。
- 熟悉 Jenkins 等 CICD 工具。
- 熟悉 TCP/IP 协议、路由交换原理,具备网络故障排查能力。
- 熟悉 Zabbix、Prometheus、Grafana 等监控工具。
- 具备良好的故障分析和解决问题的能力,能够独立处理复杂问题。
- 具备良好的沟通能力和团队合作精神,工作认真负责,积极主动。
- 具备较强的抗压能力。
- 熟悉云计算平台(阿里云、腾讯云、华为云等)。
- 熟悉 Ansible等自动化运维工具。
- 有DevOps 实践经验。