职位详情
代码策略-数据建设 8-15K
8000-15000元
上海辅佐供应链有限公司
杭州
1-3年
本科
06-05
工作地址

阿里巴巴西溪C区西路

职位描述
【岗位职责】
1、负责设计、构建和优化高质量的代码数据集,以支持代码大模型的研发
2、建立和完善数据质量评估体系,定期对数据集进行审核,保证数据的准确性、完整性和一致性。
3、确保所有数据收集和使用过程遵守相关的法律法规,实施有效的数据保护措施,维护用户隐私。
4、紧跟行业动态和技术进步,不断探索新的方法和技术来提升数据处理效率和效果。
【任职要求】
1. 至少2年以上的AI/NLP领域工作经验,特别在代码大数据处理方面拥有深入的理解和实践经验。
2. 具备从零开始构建大规模多语言代码数据集的能力,包括但不限于数据采集、清洗、标注及结构化处理。熟悉如何通过算法提高数据质量和减少噪音。在GitHub、Stack Overflow、Kaggle等平台有系统性代码数据采集经验(需提供案例说明)。
3. 精通Python及其相关数据处理库(如Scrapy, pandas, SQL等),并能够开发自定义脚本或工具来加速数据处理流程。对大数据处理框架(如Hadoop, Spark)有一定了解更佳。
4. 对开源生态有深刻理解,熟悉主流开源协议(MIT/GPL/Apache等)及数据合规要求,需能主动参与开源社区,识别有价值的数据源,并确保所有数据操作符合合规要求。
5. 对于特定领域的数据处理(例如算法竞赛、开源项目贡献历史等)有独特见解和成功案例者优先考虑。能够基于具体业务场景,提出创新性的数据解决方案。
6. 优秀的沟通能力和团队合作精神,能够与跨职能团队有效合作,共同推动项目的进展。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请