职位描述
【岗位职责】:
1.负责公司基础人工智能平台(训练推理、检验检测、对外运营等核心模块)的架构设计、功能开发与性能优化,支撑算法团队高效迭代与业务快速落地;
2.主导分布式训练框架、高性能推理引擎、模型压缩与加速、异构算力调度等关键子系统的研发,持续提升平台在大规模数据、复杂模型、多场景下的稳定性与扩展性;
3.深度参与GPU/CPU/ARM/NPU等算力资源的池化与弹性调度,结合实际业务负载设计并实现资源利用率最大化方案;
4.负责公司级人工智能工具链的整体架构规划、建设与持续治理,覆盖大模型微调/蒸馏、仿真环境、强化学习训练、自动化检验检测等核心子系统,打造端到端、高效、可复现的研发基础设施;
5.设计并落地自动化检验检测流水线:集成模型对抗测试、鲁棒性评估、公平性检测、性能基准回归、安全扫描(PromptInjection、数据投毒)等工具;
6.与算法、数据、运维、安全等多团队紧密协作,制定技术规范与实践,提升整体研发效率与交付质量;
7.完成公司交办的其他工作任务。
【任职要求】:
1.学历要求:大学本科及以上学历。
2.专业要求:电气类,计算机科学与技术类,软件工程类,网络安全类,电子信息类,信息与通信工程类,控制科学与工程类,电子科学与技术类,数学类,集成电路科学与工程类,统计学类,计算机类,或具备1年信息技术业务、信息技能工作经历。
3.年龄要求:一般不超过40周岁。
4.工作经验:具有3年以上AI平台或分布式系统核心开发经验优先,主导过至少1个大规模深度学习平台从0到1的落地经验者优先。
5.能力要求:
(1)熟悉Python/Go/C++等语言,具备扎实的数据结构与算法功底;
(2)熟悉PyTorch/TensorFlow框架源码及分布式训练原理,能够定制或改写核心组件;
(3)熟悉Kubernetes、Docker、Kubeflow、Ray等云原生技术栈,熟悉GPU/NPU等异构资源调度与虚拟化(CUDA、ROCm、vGPU、MIG等);
(4)熟悉NLP/CV/多模态大模型微调训练、强化学习训练、算法测评等相关技术。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕