岗位职责:
1、 主导AI软件生态适配与引入:负责AI管理软件(AIstation等)引入、适配,解决AI软件在异构平台上的兼容性、依赖项冲突、编译部署等问题,确保其稳定高效运行。负责AI软件兼容性列表及最佳实践指南,负责主流 AI 计算框架(如 PyTorch、TensorFlow、JAX、ONNX 等)在不同计算平台上的适配与优化工作,确保框架能高效运行。
2、针对公司业务所涉及的各类大模型,包括但不限于自然语言处理领域的 Transformer 系列模型、计算机视觉领域的卷积神经网络模型等,进行端到端的调通及推理性能优化,同时对模型的精度和准确率进行调试,以满足实际业务需求。
3、负责 AI 框架与主流推理引擎,如 vLLM、TensorRT - LLM、DeepSpeed 等的适配与集成工作,通过技术手段实现高效推理加速,降低推理延迟,提高系统整体响应速度。
4、深度分析 AI 计算性能瓶颈,从硬件资源利用、算法实现、软件框架等多维度进行性能调优,提出切实可行的优化方案并推动实施,不断提升 AI 技术在公司异构硬件平台上的落地效果。
岗位要求:
1、计算机科学、人工智能、软件工程、数学等相关专业,本科及以上学历。
2、精通 C++、Python 语言,具备扎实的编程基础,能够熟练运用其进行复杂算法实现、系统开发与调试。
3、熟悉常见 AI 框架,具有 1 年及以上 pytorch、tensorflow、tvm、JAX、ONNX 等相关框架开发经验,对框架的底层原理有深入理解,能够灵活运用框架进行模型开发与优化。
4、具备丰富的异构计算编程经验,熟悉 CUDA、OpenCL 等 GPU 计算框架,深入掌握 Cutlass、cuBLAS、cuDNN 等加速库的使用,能够利用这些工具进行高效的并行计算开发和性能优化。
5、熟悉 AI 芯片架构与算子优化,具备将 AI 芯片接入主流 AI 计算框架的实际项目经验,了解不同 AI 芯片的性能特点和适用场景,能够针对性地进行适配和优化工作。
6、具备良好的问题解决能力和工程实践能力,能够独立分析和解决复杂技术问题;具备AI管理软件(EPAI,AI station 、AIHC等)测试及优化经验优先