职位描述
岗位职责:
负责大规模语言模型(LLM)相关的数据处理、清洗和标注工作
参与检索增强生成(RAG)系统的数据架构设计和实现
开发和维护Python数据处理流水线
构建和优化向量数据库及相似性搜索系统
协助算法团队进行模型训练数据的准备和验证
设计和实现数据质量监控体系
编写技术文档和数据处理规范
跟踪大模型领域最新技术发展并应用于实际项目
基本要求:
2年以上数据工程或相关工作经验
熟悉大规模语言模型(LLM)原理和应用场景
精通检索增强生成(RAG)技术架构
熟练掌握Python编程语言及其生态系统
熟悉常用的数据处理和分析工具
技术技能要求:
大模型相关技术,熟悉主流大语言模型(如GPT、BERT、LLaMA等)的原理和应用
了解模型微调(Fine-tuning)和提示工程(Prompt Engineering)
熟悉模型推理和部署流程
了解大模型的局限性和伦理问题
精通检索增强生成(RAG)架构原理
熟悉向量数据库(如Pinecone、Weaviate、FAISS等)
了解文本嵌入(Embedding)技术和相似性搜索算法
具备信息检索和知识图谱相关经验
熟练掌握Python语言,熟悉常用的库和框架(如NumPy、Pandas、Scikit-learn等)
熟悉异步编程和并发处理
了解数据可视化工具(如Matplotlib、Seabana等)
具备构建和维护数据处理流水线的经验
数据处理技能:
精通数据清洗、转换和验证技术
熟悉文本数据处理和自然语言处理基础
具备大规模数据集处理经验
了解数据隐私和安全保护措施
数据库和存储:
熟悉关系型数据库(如MySQL、PostgreSQL)
了解NoSQL数据库(如MongoDB、Redis)
熟悉向量数据库和相似性搜索技术
具备数据仓库和数据湖相关经验
其他技能:
熟悉Git等版本控制工具
了解Linux操作系统和Shell脚本
具备良好的代码规范和文档编写能力
了解Docker等容器化技术
软技能要求:
具备良好的沟通能力和团队协作精神
具有较强的学习能力和问题解决能力
工作认真负责,能承受一定的工作压力
对人工智能领域有浓厚兴趣和热情
具备良好的英文阅读能力
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕