职位详情
运维工程师--国企背景+稳定性强+全额五险一金!!
1.5-2万
上海金亥数智科技有限公司
上海
3-5年
本科
09-17
工作地址

上海市公安局1

职位描述
岗位职责:
1、 基础设施管理:负责用户现场虚拟机、Kubernetes集群及中间件资源的维护与管理,包括Linux操作系统与开源组件的部署、资源扩容、配置变更等日常运维操作。
2、 平台发版与上线支持:负责业务平台在正式环境的版本发布评审与操作实施。
3、 故障处理与恢复:快速响应系统及开源组件的异常事件,准确诊断问题根源,实施有效修复措施,最大限度减少服务中断时间,提升系统可用性。
4、 算力资源管理:根据用户需求,完成算力资源的纳管与释放,确保资源可监控、可调度、可管理。
5、 模型评测:对模型在不同算力设备上的运行表现进行模型性能、基准能力、行业能力的评估,输出评测数据,评估模型适配的硬件资源类型,支持模型部署决策。
6、 模型部署支持:根据业务需求,完成模型的部署工作,包括资源配置建议、镜像打包、部署验证及性能指标跟踪。
7、 模型运行监控:实时监控模型运行状态,包括准确性、响应时间、资源占用等关键指标;定期开展模型健康检查和性能拨测,识别瓶颈并推动优化改进。 任职要求:
1、 计算机相关专业,大学本科或以上学历;
2、 具备3年以上Linux运维工作,精通linux环境下的日常运维工具,并具备安装、配置及排障能力;
3、 熟悉Docker\Kubernetes等生态圈项目,如容器集群、监控、日志、存储等部署方案;
4、 熟练使用shell、python等语言进行运维工具或自动化脚本的编写;
5、 优先考虑掌握NVIDIA系列卡的大模型部署,熟悉大模型在海光K100、华为910B等国产算力卡的应用部署;
6、 优先考虑熟练使用至少一种主流Al训练框架,如TensorFlow、PyTorch、Caffe等;
7、 具备较强的运维意识以及自我驱动和学习能力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请