BESS运维(远程监控方向)(Junior)  
  6000-9000元
苏州 本科
扬子江国际化学工业园青海路2号1幢3层
n 负责大模型训练与推理服务器集群的日常维护、监控、部署和容量管理,确保系统稳定、高效运行。
n 负责建立并完善应急预案,快速响应并定位故障;持续分析系统性能瓶颈,推动架构、代码及配置层面的深度优化,提升模型服务效率。
n 与算法、开发、测试团队紧密协作,提升部署、运维效率和标准化水平,高效交付运维需求。
n 参与大模型迭代计划制定,协助验证迭代版本的稳定性与兼容性;
n 主动追踪大模型、AI框架、分布式计算及云原生等前沿技术,保持大模型持续优化,满足客户业务场景的性能要求。
【岗位要求】n 学历专业:本科及以上学历,计算机应用技术/信息技术/软件工程/机器学习等相关专业优先;
n 工作年限:1-3年
出差要求:临时短期出差
n 岗位技能:
² 掌握shell脚本编程和python语言编程,能自行编写脚本;
² 熟悉Linux系统运维或DevOps相关工作经验,熟悉Ubuntu系统管理与性能调优;
² 熟悉常用的系统组件和应用组件安装,如显卡驱动、数据库、镜像仓库、模型运行平台等;
² 熟悉容器技术,了解k8s基本原理,能部署和管理GPU工作负载;
² 了解Slurm、KubeFlow 或 AI平台运维经验;
² 沟通协调能力较强,性格开朗,身体素质好,有一定的抗压能力。
n 岗位需求人数:1-2人。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕