职位详情
大模型运维实施工程师
6000-8000元
烟台国工智能科技有限公司
苏州
1-3年
本科
10-31
工作地址

扬子江国际化学工业园青海路2号1幢3层

职位描述
【岗位职责】

n 负责大模型训练与推理服务器集群的日常维护、监控、部署和容量管理,确保系统稳定、高效运行。

n 负责建立并完善应急预案,快速响应并定位故障;持续分析系统性能瓶颈,推动架构、代码及配置层面的深度优化,提升模型服务效率。

n 与算法、开发、测试团队紧密协作,提升部署、运维效率和标准化水平,高效交付运维需求。

n 参与大模型迭代计划制定,协助验证迭代版本的稳定性与兼容性;

n 主动追踪大模型、AI框架、分布式计算及云原生等前沿技术,保持大模型持续优化,满足客户业务场景的性能要求。

【岗位要求】

n 学历专业:本科及以上学历,计算机应用技术/信息技术/软件工程/机器学习等相关专业优先;

n 工作年限:1-3年

出差要求:临时短期出差

n 岗位技能:

² 掌握shell脚本编程和python语言编程,能自行编写脚本;

² 熟悉Linux系统运维或DevOps相关工作经验,熟悉Ubuntu系统管理与性能调优;

² 熟悉常用的系统组件和应用组件安装,如显卡驱动、数据库、镜像仓库、模型运行平台等;

² 熟悉容器技术,了解k8s基本原理,能部署和管理GPU工作负载;

² 了解Slurm、KubeFlow 或 AI平台运维经验;

² 沟通协调能力较强,性格开朗,身体素质好,有一定的抗压能力。

n 岗位需求人数:1-2人。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请