岗位职责:
1. 设计、构建和优化高质量的代码数据集,以支持代码大模型的研发。
2. 建立和完善数据质量评估体系,定期对数据集进行审核,保证数据的准确性、完整性和一致性。
3. 确保所有数据收集和使用过程遵守相关的法律法规,实施有效的数据保护措施。
岗位要求:
1. 至少2年以上的AI/NLP领域工作经验,特别在代码大数据处理方面拥有深入的理解和实践经验。
2. Kaggle等平台有系统性代码数据采集经验(需提供案例说明)。
3. 精通Python及其相关数据处理库(如scrpy,pandas,SQL等),并能够开发自定义脚本或工具来加速数据处理流程。
4. 对大数据处理框架(如Hadoop, spark)有一定了解,对开源生态有深刻理解,熟悉主流开源协议(MIT/GPL/Apache等)及数据合规要求。
5. 能够主动参与开源社区,识别有价值的教据源,并确保所有教据提作符合合规要求。
6. 对于特定领域的数据处理(例如算法竞赛、开源项目贡献历史等)有独特见解和成功案例者优先考虑。
7. 能够基于具体业务场景,提出创新性的数据解决方案。
8》 具备从零开始构建大规模多语言代码数据集的能力,包括但不限于数据采集、清洗、标注及结构化处理。
薪资:10-20K,具体面谈,线上面试
此岗位为外包岗位,介意勿投