职位描述
 主要职责
1.设计、构建和维护可扩展的拓扑数据ETL/ELT管道,实现从多源数据到拓扑表示(如单纯复形、持久图、邻接矩阵等)的自动化转换。
2.研发和实现针对不同类型数据的拓扑特征提取方法,利用词嵌入、CNN特征向量等构建点云,并计算其拓扑特征。将其直接建模为拓扑对象,或通过高阶交互构建组合结构。应用滑动窗口、重构技术(如Takens嵌入)将其转换为拓扑对象进行分析。
3. 熟练运用拓扑特征(如条形码、持久图、Betti数)的向量化技术(如持久景观、Betti曲线、拓扑签名等),将其转化为下游机器学习模型可用的特征。
4. 评估、集成并优化拓扑数据分析工具(如 Gudhi, Dionysus, Scikit-TDA),将其封装为标准化、可复用的数据服务或API。
5. 解决大规模数据集拓扑计算中的性能瓶颈,通过分布式计算、并行化等技术优化处理流程。
6. 与算法工程师、Java工程师紧密合作,理解其分析需求,并提供高质量的拓扑数据支持。
职位要求
1.计算机科学、应用数学、统计学或相关领域的本科及以上学历。
2.拥有 3年以上数据工程或相关领域的工作经验。具备 至少1个将拓扑数据分析应用于实际项目的经验,并深刻理解将原始数据转换为拓扑表示的全流程。
熟练掌握持续同调等拓扑数据分析的核心理论与计算方法。
3.精通至少一种主流TDA库(如 Gudhi)的使用,并理解其底层原理。
4.拥有实际的拓扑特征向量化经验,能将持久图等结果融入标准ML管道。
5.精通 Python 和 SQL,并具备强大的编程能力。拥有丰富的大数据生态工具使用经验(如 Spark, Hadoop, Hive)。
6.具备构建复杂数据管道的经验,熟悉相关工作流管理工具(如 Airflow, Dagster)。
7.拥有处理非结构化数据(文本、图像)和/或图数据的实际项目经验。对嵌入技术和特征工程有深刻理解。
  以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕