职位描述
岗位职责:负责研发公司的统一通用人工智能与认知增强平台,施支撑公司智能应用快速实施落地,主要工作职责包括:
1、公司人工智能平台各智能应用模块(数据预处理、数据特征工程、模型训练、模型验证、模型推断)的架构设计,保障AI平台模型研发能力的可靠实施运行;
2、规划、设计、实施大规模机器学习、计算机视觉、智能决策、文本语义理解等AI计算基础设施模块;、
3、基于应用场景,完成算法落地设计,并完成模型训练环境的通用工具,支撑模型优化和模型量化压缩剪枝/推理加速;
4、跟进AI 平台逐步迭代完善、并负责AI平台运维,编写相关技术文档。
任职要求:
1. 计算机、自动化、分布式/并行计算等专业,具备5年以上的分布式平台研发经验,有2年以上高性能运算(HPC)开发工作经验优先;
2. 具有GPU集群构建相关经验,熟悉GPU服务器集群安装、部署和运维。熟练掌握Python、Java、C/C++等任意一种编程语言,熟悉Linux内核运行机制;
3. 熟悉常用容器技术(Docker),能够熟练使用k8s等分布式资源管理和虚拟化平台,并深入理解其工作原理,
4. 了解经典机器学习算法和深度学习算法基本原理和常用优化技巧,有较强的数据结构和算法性能优化能力;
5. 熟练掌握至少一种主流深度学习算法框架,包括但不限于Pytorch,TensorFlow,Caffe、Spark MLFlow;
6. 具备AI AI推理调度引擎、AI分布式训练调度引擎、AI资源虚拟化产品设计(APaaS)研发经验,对这些产品的行业发展趋势有深入的认识和理解;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕