职位描述
【岗位职责】
* 负责大规模深度学习模型(如 [LLM/多模态/CV大模型])的预训练(Pre-training)、指令微调(SFT)及人类反馈强化学习(RLHF)的全流程算法研发与迭代。
* 负责分布式训练框架的搭建与优化,利用 Megatron-LM, DeepSpeed, FSDP 等技术解决大规模参数模型的显存墙和通信墙问题,提升训练吞吐量(Throughput)和线性加速比。
* 监控并分析训练过程中的 Loss 收敛情况,解决梯度爆炸/消失、训练发散、精度溢出等问题,保障长时间大规模训练任务的稳定性。
* 设计并优化大规模训练数据的处理管线(Data Pipeline),包括数据清洗、配比优化、Tokenization 策略,确保高质量数据的高效供给。
* 跟踪顶会(NeurIPS, ICML, ICLR, CVPR等)的前沿算法,复现并验证最新的模型架构(如 MoE, Linear Attention 等)及优化器算法。
【任职要求】
* 统招本科及以上学历,2年以上工作经验,具有扎实的数学基础和算法功底。
* 精通 Python,具有扎实的 C/C++ 基础,代码风格良好;熟悉 Linux 开发环境及 Shell 脚本。
* 深度掌握 PyTorch 框架,熟悉其底层原理(如 Autograd, Distributed Data Parallel);熟悉 TensorFlow/JAX 者加分。
* 对 Transformer 架构、Attention 机制、Normalization 技术、各类优化器(AdamW, Lion 等)有深刻理解,并能从数学层面推导。
* 熟悉多机多卡训练原理,熟练使用 DeepSpeed, Megatron-LM, Colossal-AI 或各类加速库(FlashAttention, vLLM),有千卡/万卡集群训练经验者优先。
* 具备优秀的问题分析与解决能力,能在训练资源受限或训练异常时快速定位并解决问题。
【加分项】
* 熟悉云计算环境(如 Kubernetes, Containerd, Docker)及大规模集群调度。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕