岗位职责:
1.负责大规模分布式深度学习平台技术研发,主要包括分布式训练方案设计与实现、分布式训练任务资源调度、计量与性能优化;
2.负责深度学习相关前瞻技术的跟踪调研和升级迭代,包括GPU等计算资源虚拟化、算法框架、AutoML、模型压缩等技术和理论的调研及研究工作;
3.深入主流深度学习框架,针对移动现有模型训练与推理业务,进行性能优化、定制开发;
4.从软硬件协同的角度,研究异构芯片、云边端场景下的深度学习平台关键技术及难点问题。
任职要求:
需求专业:计算机科学与技术、软件工程、通信工程或其他相关专业。
技能要求:
1.熟悉容器技术,具有Docker、Kubernetes开发或使用经验;
2.熟练使用Python/Shell/Golang或其他语言,要求编成风格良好,具有复杂业务逻辑的编写经验;
3.了解深度学习技术相关框架及算法,有Tensorflow/Pytorch/Caffe等主流框架使用经验优先;
4.有分布式训练经验,对Jupyter、CUDA等技术有了解的优先;
5.有分布式计算、AutoML、模型压缩等研究经验优先。
素质要求:
1.有责任心,工作热情、耐心、踏实、严谨,有团队合作精神;
2.出色的沟通能力,喜欢自我驱动的工作;
3.具备较强的动手实践能力;
4.具备一定的抗压能力,有能力应对来自工作上的各种压力。