1.8-2.4万
中国铁路通信信号股份有限公司
岗位职责:
1、负责面向 GPU、NPU、ASIC 等异构计算平台的算法加速研究与工程优化,构建高性能的推理与训练加速能力。
2、深入分析深度学习模型的计算图结构,开展算子级优化、内核实现优化、图融合(Graph Fusion)、内存访问优化及调度策略改进,显著提升整体计算效率与吞吐能力。
3、参与异构芯片适配工作,设计跨平台算子库、性能调优工具链及编译优化策略,实现模型在不同硬件架构上的高效部署。
4、负责模型加速框架的技术方案设计,包括模型量化(INT8/INT4)、剪枝、稀疏化、KV Cache 优化、并行策略(Pipeline / Tensor Parallel)等关键技术的落地实现。
5、参与算法任务编排系统建设,设计并实现算子调度、资源分配与执行路径优化机制,提升多算法、多模型并行执行下的系统性能与稳定性。
6、编写技术文档,包括性能分析报告、优化方案说明、算子接口规范及部署指南,支撑团队协作与工程落地。
7、跟踪国内外硬件加速技术、AI 编译器(TensorRT、TVM、XLA、MLIR 等)及新型芯片架构发展趋势,推动创新技术在产品中的验证与应用。
任职要求:
1、硕士及以上学历,计算机体系结构、人工智能、电子工程、软件工程等相关专业;具备异构计算平台研发经验者优先。
2、熟悉 GPU、NPU或ASIC芯片的原理与架构,掌握 CUDA、OpenCL 等至少一种底层并行计算框架。
3、具备扎实的算法加速与性能优化能力,熟悉算子开发、内核优化、寄存器/共享内存调度、Warp执行机制等底层细节。
4、有 AI 编译器、图优化框架或推理引擎(如 TensorRT、vLLM、SGLang、OpenVINO)相关经验者优先。
5、 熟悉深度学习主流框架(PyTorch、TensorFlow)及其底层 IR / 分布式执行机制,具备模型量化、剪枝或稀疏化优化实践经验者优先。
6、具备良好的编码能力,熟练使用 C/C++、Python,具备高性能计算相关工程经验者优先。具有严谨的工程能力与性能分析能力,能够独立完成从问题定位、优化设计到性能验证的完整闭环。
7、 拥有优秀的沟通能力、团队协作能力与问题解决能力,能够支持项目交付过程中的短期出差需求。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕