岗位职责:
1. Python开发,负责系统功能模块设计、编码与调试,保障项目高效稳定交付。
2. 支持视觉大模型的应用场景开发,包括但不限于图像生成、目标检测、人脸识别、图像分割与视频分析。
3. 探索多模态融合技术,将视觉模型与其他模态(如文本、音频)结合,实现跨模态任务。
4. 挖掘和研发视频标签搜索, 视频剪辑等基于AI的视频算法并落地
5. 基于RAG构建并优化相关应用系统,提升数据利用与内容生成的精准性和效率。
6. 编写、优化提示词策略,引导大模型输出符合需求的结果,提升人机交互效果。
任职要求:
1. 教育背景:
计算机科学、人工智能、数学等相关专业硕士及以上学历
2. 技术能力:
精通深度学习框架( PyTorch、TensorFlow)。
熟悉主流视觉或音频模型(如 Qwen VL、OpenAI Clip、DINOv2、YOLO、Whisper)。
具备扎实的图像处理、计算机视觉和深度学习理论基础。
3. 算法与工程经验:
熟悉图文/视频文本多模态建模与应用,在以下领域有深入的研究及落地经验,包括但不限于:视频分析理解、RAG、自监督/多模态弱监督,跨模态检索与生成、AI agent等。
4. 编程能力:
精通Python编程语言。
5. 团队协作与沟通:自驱力强,具备良好的团队合作精神,善于沟通交流,能够与不同岗位的团队成员紧密协作,共同完成项目目标。
加分项:
1. 有多模态图文内容生成系统全流程开发经验者优先(数据采标、数据清洗、模型设计、跨域对齐、提示词工程)
2. 掌握VUE框架,熟悉前端开发流程,能够独立完成前端页面的开发与优化工作,有实际项目经验者优先
3. 英文CET-6以上,可以阅读撰写英文技术文档。