MES 系统开发工程师
1.5-2.5万·14薪
长沙 本科
地宝大厦A座23楼
岗位职责:
1.负责全参大模型在GPU集群上的部署与调试,适配集群架构与软件环境,确保模型能正常运行。
2.协助优化大模型训练与推理的代码,结合集群特点调整并行策略、 batch size 等参数,提升模型运行效率。
3. 解决大模型运行过程中出现的系统层面问题(如显存溢出、算力利用率低、网络通信异常等)。
4.参与构建MLOps体系,负责模型训练任务的调度、监控与日志分析,实现训练过程的可视化与可追溯。
5.编写大模型部署与运行的技术文档,形成标准化操作流程,支撑团队高效协作。
任职要求:
1.本科及以上学历,计算机相关专业,3年以上大模型部署或GPU集群应用开发经验。
2.熟练掌握PyTorch/TensorFlow等深度学习框架,具备全参大模型部署与调试经验。
3.熟悉GPU集群的运行机制,了解Slurm/Kubeflow等任务调度系统的使用方法。
4.具备一定的代码优化能力,能针对大模型运行特点进行系统层面的优化调整。
5.良好的问题解决能力与沟通能力,能快速响应模型运行过程中的各类问题。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕