岗位职责:
 1、负责大模型训练平台的结构设计、核心模块开发与性能优化,支持大规模分布式训练任务;
 2、参与数据集的构建、清洗、预处理以及高效存储方案设计,确保数据质量与训练效率;
 3、实现模型微调全流程工具链使用,包括参数配置、训练策略优化及资源调度;
 4、开发模型验证与评估系统,设计自动化测试框架,确保模型效果符合业务需求;
 5、跟踪大模型技术前沿,探索高性能计算、显存优化等关键技术落地。
 任职要求:
 1、计算机相关专业,3年以上Python开发经验;
 2、熟悉大模型训练框架(如PyTouch、DeepSpeed、Megatron-LM等),有模型训练平台开发经验;具备大模型应用或大模型训练平台开发经验;
 3、熟悉数据处理工具链(Pandas/Numpy/Dask等),具备大模型数据集构建与管理经验;
 4、熟悉Docker、kubernetes等容器技术;
 5、了解模型微调技术(如Lora、Adapter等)能独立完成训练流程开发与调优;
 6、了解模型评估指标(如BLEU、ROUGE、准确率等)及验证工具开发;