岗位职责:
1.基于业务场景(行为识别)对InternVL、QwenVL等VLM模型进行领域适配性微调,优化图像理解、动作识别、多模态推理能力
2.构建零售场景专属数据集,设计数据增强策略,解决遮挡、光照变化等实际场景挑战
3.实现CV&VLM模型在边缘设备(如Jetson系列)/云端的轻量化部署,优化推理速度与资源占用
4.开发模型服务化接口,支持实时视频流分析与行为事件触发机制
5.设计时序行为分析框架,融合目标检测(如定位、姿态估计、动作分类等多模块协同工作
6.构建基于VLM的异常行为识别系统(违规操作等场景)
7.跟进VLM前沿技术(如多模态prompt工程、模型蒸馏),探索3D视觉与VLM的融合方案
8.输出可复用的算法组件库,建立零售场景算法基准测试体系
岗位要求:
1.熟练掌握PyTorch框架及HuggingFace生态,具有InternVL/QwenVL等开源VLM实战调优经验
2.精通模型压缩技术(量化/剪枝/知识蒸馏),有VLLM/LMdeploy等部署工具实战经验
3.熟悉视频理解技术栈(OpenCV/FFmpeg/Decord),具备多线程视频处理系统开发能力
4.具备强工程实现能力,主导过至少1个完整AI项目从研发到落地的全生命周期
5.理解行为场景特性:能通过算法设计应对监控视角差异、制服相似度、复杂背景干扰等挑战
6.有行为识别项目经验者优先,熟悉NTU RGB+D、AVA等行为数据集者加分
7.具备产品化思维,能协同硬件团队优化计算资源分配方案
8.具有技术文档撰写习惯,代码符合工业级可维护性标准
9.在CVPR/ICCV/ECCV等会议发表过多模态学习相关论文
10.有成功通过模型微调提升特定场景指标30%以上案例
11.具备模型服务高并发处理经验
硕士或985,211的本科毕业生 ,30以内
我们提供:
参与千万级门店智能化改造的行业标杆项目
配备A100/H100算力集群及边缘设备开发套件
技术成果可快速应用于数万线下零售场景
与VLM领域顶尖团队定期技术交流机会