职位描述
岗位职责:
1、设计并搭建高性能,高可扩展的AI基础设施平台,支持模型的训练与推理任务,优化GPU集群资源调度策略。
2、构建容器化部署方案(Kubernetes/Docker),构建高质量训练&推理镜像。
3、搭建AI系统全链路监控体系(Prometheus/Grafana/ELK),实时追踪GPU利用率,推理延迟,错误率等核心指
4、维护分布式存储系统(如JuiceFS,Cubefs等),确保训练推理数据的高可用与读写性能。制定并执行机房容灾备份策略,防范硬件故障,数据丢失等风险。
5、负责机器学习平台的开发,支撑公司训练,评测,标注等相关业务的算法生产与高效迭代
6、负责对接训练平台在自动驾驶数据流中的上下游,具体包括提升数据预处理的效率,提供用户友好的模型管理工具等;
任职要求:
1、统招本科及以上学历,计算机科学,人工智能或相关领域专业。两年及以上相关工作经验
2、了解前沿的AI技术,有工程实践经验者优先,有火山云,阿里云等云厂商使用经验;
3、有大型Al集群(含多机多卡分布式训练)运维经验,了解TensorFlow/PyTorch等框架的运行机制。
4。具备实际问题分析与故障排查能力,能快速定位并解决平台与机房的复杂问题。
5、熟悉Containerd、Docker、Kubernetes等容器技术;
6、掌握shell、python等至少一种脚本语言;
加分点:
1、熟悉分布式系统研发(包括但不限于Kubeflow、AutoML、Spark 等);
2、有机器学习平台开发经验(包括但不限于PyTorch、PaddlePaddle.TVM、Triton等);
3、熟悉数据库(包括但不限于SQL、LMDB、TF Record、Webdataset、Lance),能够有效地进行数据存储和检索;
4、具备较强神经网络模型训练与调优实践经验;
5、了解通用GPU架构以及业内相关虚拟化方案;
6、了解高性能网络相关技术,对RDMA编程以及相关流控技术有一定的技术储备加分;
7、有过大型项目开发经验,代码功底扎实;
8、具备模型训练&部署经验优先;
9、熟悉编译器(LLVM、MLIR)、并行计算(CUDA、OpenCL等)、高性能计算(MPI、HPC)以及存储引擎;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕