职位详情
AI算法数据管理/训练/推理部署平台专家
3.5-6.5万
进迭时空(杭州)科技有限公司
北京
5-10年
本科
01-31
工作地址

海淀新技术大厦8层815号

职位描述
职位描述
作为AI平台专家,负责设计和驱动公司核心AI平台(涵盖数据、训练、推理三大核心子系统)的架构演进与技术落地。需深刻理解AI算法研发与模型服务的全流程痛点,通过平台化、产品化的手段,系统性提升算法工程师的研发效率、资源利用率与模型服务质量。

核心职责
1. 平台架构设计与规划:
• 负责 AI开发平台的整体架构设计,制定数据管理、模型训练、模型部署子系统的技术演进路线图。
• 设计并推动实现 “数据-训练-部署”一体化 的协同工作流,确保数据版本、模型版本、服务版本的可追溯性与一致性。
2. 核心子系统设计与实施:
• AI数据管理平台:
◦ 设计支持海量多模态数据(文本、图像、视频、点云) 的存储、版本化、标注、清洗、特征工程与可视化管理平台。
• AI训练平台:
◦ 设计支持 多卡分布式训练 的任务调度、弹性伸缩与监控体系。
◦ 集成与优化主流深度学习框架(PyTorch, TensorFlow, JAX),提供友好的训练任务编排、实验管理、超参优化与可视化工具。
◦ 实现训练资源的精细化管理和成本核算。
• AI推理部署平台:
◦ 集成与优化 vLLM、Triton、TensorRT Serving 等推理框架,构建统一的模型仓库、自动化压缩与部署流水线。
◦ 建立模型性能与服务质量(QPS, Latency, Cost)的常态化监控与告警体系。

任职要求(必要条件)
1. 教育背景:计算机科学、软件工程或相关专业硕士及以上学历。
2. 深厚的系统架构与工程能力:
◦ 7年以上 后端或基础设施开发经验,3年以上 作为核心设计或开发人员参与过中大型 AI平台、大数据平台或云计算平台 的建设。
◦ 精通 Go/Python/Java/C++ 中至少两门语言,具备卓越的系统设计、编码和复杂问题调试能力。

3. 全面的AI平台领域知识:
◦ 对 机器学习/深度学习项目全流程 有深刻理解,清楚各环节的核心痛点与***实践。
◦ 具备 大数据处理(Spark, Flink, Ray) 和 MLOps 相关经验。
◦ 熟悉至少一个主流云厂商(AWS, GCP, Azure)的AI/大数据相关服务。

优先考虑条件
1. 有从0到1主导或深度参与建设公司级 AI平台、MLOps平台 并成功支撑大规模业务的经验。
2. 熟悉 Kubeflow、MLflow、TFX、Airflow 等开源MLOps工具栈,并有二次开发或集成经验。
3 有 大规模在线推理服务的架构设计与性能优化经验。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请