1-2万
崇文门外大街-3号楼6层南办604
一、职位描述
图像语义理解的核心算法工程师,负责开发面向人工智能机器人的视觉认知系统。通过构建多模态语义理解框架,实现机器人对复杂场景的实时感知、推理与决策支持。核心方向包括但不限于:2D/3D场景语义分割、目标检测与追踪、视觉-语言对齐、上下文推理及跨模态知识融合。
二、核心职责
1. 设计并优化基于深度学习的图像语义理解算法,解决机器人场景中的物体识别、空间关系理解、动态场景建模等关键问题
2. 开发多模态感知系统,实现视觉、语言、触觉等传感器的语义级数据融合
3. 构建机器人视觉认知基准测试集,建立可量化的评估体系
4. 针对嵌入式平台优化算法,平衡精度与实时性需求(FP16/INT8量化、模型剪枝等)
5. 与机器人运动控制、导航团队协同,将视觉语义输出转化为可执行决策指令
三、技术要求
1、精通计算机视觉基础理论(卷积神经网络、Transformer架构、图神经网络等)
2、熟练掌握至少一种深度学习框架(PyTorch/TensorFlow)及配套开发工具链
3、具备扎实的数学基础(线性代数、概率论、优化理论)
4、在以下领域有实战经验(至少两项):
(1)开放场景语义分割(如Segment Anything模型应用)
(2)3D视觉理解(点云处理、NeRF、多视图几何)
(3)视觉-语言模型(CLIP、BLIP、DeepMind Flamingo等)的微调与部署
(4)视频理解(时序动作检测、事件预测)
5、熟悉机器人操作系统(ROS)及常见传感器(RGB-D相机、激光雷达)的数据处理
6、具备模型加速经验(TensorRT部署、ONNX优化、TVM编译等)
四、加分项
1、有机器人认知系统开发全流程经验(从数据采集到端侧部署)
2、熟悉认知科学或神经科学中的视觉感知理论
3、参与过开源项目(如MMDetection、Detectron2等)核心开发
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕