职位描述
工作职责:
1、负责AI平台开发建设,基于K8S调用或二开API,包括标注平台、训练平台、推理平台及相关工具链的架构设计和研发工作;
2、设计高可扩展分布式计算与存储方案,负责性能调优、弹性容灾及长期运维,保障集群的稳定性与资源利用率;
3、将平台和算法框架结合,通过任务调度、弹性容灾、Prometheus + Grafana + GPU 指标监控、性能调优等手段,端到端提升算法研发效率。
4、跟踪业界 AI 平台动态,持续优化技术方案,推动功能迭代。
任职资格:
1. 大学本科及以上学历,计算机及相关专业,三年以上系统架构设计、应用和开发经验;
2. 掌握Java、go等常用开发语言,服务端开发的涉及常用工具体系。
3. 熟悉K8S相关技术,有相关开发经验,有过集群系统开发、部署和优化经验优先
4. 熟悉软件开发流程以及DevOps完整流程,熟悉DevOps相关系统原理,有相关工具和使用经验、如Jenkins,Argo,Ceph,K8S,Docker,掌握源码者优先;
5. 工作认真负责,具有良好的团队合作能力、沟通协调能力和学习能力,能承受一定强度的工作压力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕