「北京海淀区清华大学课题组AI算法实习生（多模态与智能体方向）招聘」

职位详情

清华大学课题组AI算法实习生（多模态与智能体方向）

150-200元/天

清氢捷能科技(北京)有限公司

北京

本科

01-23

工作地址

清华大学

职位描述

核心职责 (Key Responsibilities)
1. 智能体（AI Agent）开发与构建
基于主流大模型开发能够自主规划、调用工具、记忆上下文的智能体（Agent）。
设计并实现RAG（检索增强生成）架构，结合向量数据库优化私有知识库的问答与交互体验。
设计Prompt Engineering（提示词工程）及Agent的工作流（Workflow），提升模型在复杂任务中的推理与执行成功率。
2. 领域专用模型训练（图像与声学）
图像识别：针对特定业务场景（如工业缺陷检测、场景分析、人脸/行为识别等），收集数据并独立进行CV模型的选型、训练、微调（Fine-tuning）与评估。
声学/语音识别：负责特定领域的声纹识别、异常声音检测或语音指令识别（ASR）模型的训练与优化。
负责从数据清洗、标注、增强到模型训练及转化的全流程。
3. 工程落地与优化
将训练好的模型（CV/Audio）与Agent逻辑进行端到端整合，封装为高可用的API或SDK。
负责模型在服务器端或边缘设备（Edge Device）上的推理加速与部署（如使用TensorRT, ONNX Runtime等）。
持续跟踪AI领域的最新论文与技术（如Multimodal LLMs），并进行复现与技术转化。

任职要求 (Job Requirements)
1. 学历要求
计算机科学、人工智能、电子工程或相关专业本科及以上学历。
2. 大模型与Agent技能
精通 Python 编程，熟悉 LangChain, LlamaIndex, AutoGPT 或类似Agent开发框架。
深入理解Transformer架构，熟悉主流LLM的API调用、Function Calling及Fine-tuning（如LoRA, P-Tuning）技术。
熟悉向量数据库（如Milvus, Faiss, Pinecone）的使用与调优。
3. 深度学习与模型训练技能
框架熟练度：熟练掌握 PyTorch 或 TensorFlow 深度学习框架。
视觉算法：熟悉主流CV网络架构（如ResNet, YOLO系列, Vision Transformers），有目标检测、图像分类或分割的实际训练经验。
声学算法：了解音频信号处理（时频分析、梅尔频谱等），熟悉音频分类或语音识别模型（如Wav2Vec, HuBERT, Whisper, Conformer等）。
4. 综合素质
具备良好的英文论文阅读能力，能快速复现前沿算法。
具备优秀的问题拆解能力，能够独立完成“数据-模型-应用”的闭环。

加分项 (Preferred Qualifications)
多模态大模型经验：熟悉LLaVA, GPT-4V等视觉-语言模型（VLM）的微调或应用者优先。
边缘计算经验：有将模型部署在NVIDIA Jetson、树莓派或移动端设备的经验者优先。
全栈能力：具备后端开发能力（FastAPI/Flask/Django），能独立交付Demo者优先。

注意：该岗位要求实习时间最少4个月，不满足者勿投！

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕