岗位职责:
1、领导并制定健康医疗场景下多模态大模型的技术路线,设计融合文本、图像、视频的统一大模型架构。
2、负责多模态算法的研发,包括但不限于医疗文档OCR、通用与医疗场景图像理解与生成、通用与医疗场景音视频理解与生成等。
3、构建高质量的多模态医疗数据集,并探索高效的跨模态预训练与对齐方法。
4、推动多模态技术在公司各项业务中的落地,解决真实世界中复杂的多模态交互问题。
5、完成上级安排的相关工作。
任职要求:
1、计算机相关专业本科及以上学历,5年以上计算机视觉相关技术研发经验。
2、在计算机视觉领域有深厚积累,对多模态大模型的原理和前沿有深入研究,有微调多模态大模型的实战经验,具备领导复杂AI项目从研究到落地的能力。
3、精通PyTorch/TensorFlow等深度学习框架和分布式训练技术(如DeepSpeed),具备强大的算法设计与实现能力。
4、对Transformer模型结构有深刻理解,对大模型训练中的数据、算法、算力有系统性认知。
5、在国际顶会发表相关论文者优先。
6、对新技术有强烈的热爱、好奇心和钻研精神,具备卓越的团队协作、沟通和问题解决能力,自驱、富有责任心和主人翁精神,极致追求算法创新和产品效果。