职位详情
组网实施工程师
1.5-2万
深圳本贸科技股份有限公司
深圳
3-5年
本科
10-21
工作地址

深圳市软件产业基地5栋A座10楼

职位描述
1、根据客户算力使用场景和需求,提供算力整体解决方案,包含硬件选型、网络设计、平台架构、模型部署等。
2、负责算力平台整体架构设计,结合业务需求制定中长期技术路线图,涵盖算力资源、算力调度、存储架构、网络拓扑等核心模块,确保架构具备高扩展性、高可用性及成本合理。
3、负责技术方案设计与落地,智算核心技术选型(如算力选型、虚拟化、分布式训练框架、A1模型优化工具等),解决大模型训练中算力集群调度、数据并行/模型并行优化等架构级难题,保障 A1业务高效运行。
4、负麦智算技术创新与预研,跟踪智算领域前沿技术(如存算一体、A 芯片架构、大模型高效训练技术等),开展技术预研与验证。
5、推动架构创新,引入 A1算力优化技术(如模型压缩、量化加速),提升智算中心算力利用率与业务处理效率。
任职要求:
1、学历与专业背景:计算机科学、电子工程、人工智能或相关领域的本科及以上学历。
2、工作经验:拥有5年以上工作经验,有三年以上大规模算力集群的规划,搭建,运维或优化方面的经验。
3、硬件知识:深入了解主流和国产化算力硬件,如NVIDIA GPU、NPU 等,熟悉其架构特性,包括 CUDA、CANN、RDMA 网络等。能够根据不同的应用场景,合理选择和配置硬件资源,确保算力系统的高效运行。
4、云计算平台:精通云计算平台(如 AWS/Azure/阿里云)的算力服务,如弹性计算、容器服务、Serverless等。
5、分布式系统与调度框架:掌握分布式系统原里,熟悉常见的调度框架,如Kubermnetes、Slurm等。
6、性能调优:具备丰富的性能调优经验,能够通过并行计算优化、内存/带宽瓶颈分析等手段,提升算力系统的整体性能。
7、编程语言:熟练学握至少一种编程语言,如Python、C++、Java 等,能够运用其进行脚本编写、工具开发和算法实现。
8、模型调优:熟悉主流大模型原理,熟悉大模型框架,了解PD分离等技术,能够进行模型部署和算力调优。
9、项目经验:有千卡以上集群管理运营经验者优先。具备在大规模算力项目中担任核心角色的能力,能够从项目的规划、实施到交付,全程把控项目进度和质量。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请