职位详情
大模型系统工程师
8000-15000元
方心科技股份有限公司
长沙
3-5年
本科
01-06
工作地址

地宝大厦A座23楼

职位描述

岗位职责:

1.负责全参大模型在GPU集群上的部署与调试,适配集群架构与软件环境,确保模型能正常运行。

2.协助优化大模型训练与推理的代码,结合集群特点调整并行策略、 batch size 等参数,提升模型运行效率。

3. 解决大模型运行过程中出现的系统层面问题(如显存溢出、算力利用率低、网络通信异常等)。

4.参与构建MLOps体系,负责模型训练任务的调度、监控与日志分析,实现训练过程的可视化与可追溯。

5.编写大模型部署与运行的技术文档,形成标准化操作流程,支撑团队高效协作。

任职要求:

1.本科及以上学历,计算机相关专业,3年以上大模型部署或GPU集群应用开发经验。

2.熟练掌握PyTorch/TensorFlow等深度学习框架,具备全参大模型部署与调试经验。

3.熟悉GPU集群的运行机制,了解Slurm/Kubeflow等任务调度系统的使用方法。

4.具备一定的代码优化能力,能针对大模型运行特点进行系统层面的优化调整。

5.良好的问题解决能力与沟通能力,能快速响应模型运行过程中的各类问题。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请