职位详情
清华大学课题组AI算法实习生(多模态与智能体方向)
150-200元/天
清氢捷能科技(北京)有限公司
北京
本科
01-23
工作地址

清华大学

职位描述
核心职责 (Key Responsibilities)
1. 智能体(AI Agent)开发与构建
基于主流大模型开发能够自主规划、调用工具、记忆上下文的智能体(Agent)。
设计并实现RAG(检索增强生成)架构,结合向量数据库优化私有知识库的问答与交互体验。
设计Prompt Engineering(提示词工程)及Agent的工作流(Workflow),提升模型在复杂任务中的推理与执行成功率。
2. 领域专用模型训练(图像与声学)
图像识别: 针对特定业务场景(如工业缺陷检测、场景分析、人脸/行为识别等),收集数据并独立进行CV模型的选型、训练、微调(Fine-tuning)与评估。
声学/语音识别: 负责特定领域的声纹识别、异常声音检测或语音指令识别(ASR)模型的训练与优化。
负责从数据清洗、标注、增强到模型训练及转化的全流程。
3. 工程落地与优化
将训练好的模型(CV/Audio)与Agent逻辑进行端到端整合,封装为高可用的API或SDK。
负责模型在服务器端或边缘设备(Edge Device)上的推理加速与部署(如使用TensorRT, ONNX Runtime等)。
持续跟踪AI领域的最新论文与技术(如Multimodal LLMs),并进行复现与技术转化。

任职要求 (Job Requirements)
1. 学历要求
计算机科学、人工智能、电子工程或相关专业本科及以上学历。
2. 大模型与Agent技能
精通 Python 编程,熟悉 LangChain, LlamaIndex, AutoGPT 或类似Agent开发框架。
深入理解Transformer架构,熟悉主流LLM的API调用、Function Calling及Fine-tuning(如LoRA, P-Tuning)技术。
熟悉向量数据库(如Milvus, Faiss, Pinecone)的使用与调优。
3. 深度学习与模型训练技能
框架熟练度: 熟练掌握 PyTorch 或 TensorFlow 深度学习框架。
视觉算法: 熟悉主流CV网络架构(如ResNet, YOLO系列, Vision Transformers),有目标检测、图像分类或分割的实际训练经验。
声学算法: 了解音频信号处理(时频分析、梅尔频谱等),熟悉音频分类或语音识别模型(如Wav2Vec, HuBERT, Whisper, Conformer等)。
4. 综合素质
具备良好的英文论文阅读能力,能快速复现前沿算法。
具备优秀的问题拆解能力,能够独立完成“数据-模型-应用”的闭环。

加分项 (Preferred Qualifications)
多模态大模型经验: 熟悉LLaVA, GPT-4V等视觉-语言模型(VLM)的微调或应用者优先。
边缘计算经验: 有将模型部署在NVIDIA Jetson、树莓派或移动端设备的经验者优先。
全栈能力: 具备后端开发能力(FastAPI/Flask/Django),能独立交付Demo者优先。

注意:该岗位要求实习时间最少4个月,不满足者勿投!

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请