职位详情
数据架构师(舆情监测方向) 已下线
1.5-2.5万
北京新生代市场监测机构有限公司
北京
3-5年
本科
06-18
工作地址

光华路SOHO2B座5-3

职位描述

新生代市场监测机构现寻找优秀的小伙伴加入,在这里,你将肩负起创造性的工作使命,同我们一起运用数据,创造出强大商业价值的数据咨询产品。这一过程充满挑战,也妙趣横生。希望你是能够快速学习、善于理性思维、聪明而优秀的小伙伴;希望你是一个厌倦平庸、喜欢挑战、爱玩高难度的Geek;更希望你是一个有责任担当、也有工匠情怀的理想主义者!


1、岗位职责​​
- 设计​​舆情数据全生命周期预处理流程​​,涵盖数据清洗(去重/去噪/缺失值填充)、特征工程(TF-IDF/词向量/实体嵌入)、文本规范化(分词/停用词过滤/语义消歧)等环节,提升数据可用性。
- 开发​​自动化预处理框架​​,集成正则表达式规则引擎与机器学习模型(如异常检测分类器),实现敏感信息自动识别与敏感度分级标注。
- 主导舆情监测系统全链路架构设计,覆盖实时流处理(Flink/Kafka)、存储(HDFS/对象存储)、计算(Spark/ClickHouse)及可视化全流程。
- 构建​​分布式存储方案​​(如HBase/Cassandra),优化数据仓库分层架构,实现舆情文本、用户画像、传播路径等数据的高效存储与快速检索。
- 构建​​实时数据管道​​,集成NLP引擎(如BERT)实现舆情情感分析、实体识别等功能的低延迟处理,支持秒级预警响应。
- 开发​​异构计算框架​​,结合GPU加速技术优化大规模文本聚类与关联分析性能,降低计算资源消耗。
- 与产品团队协作​​,将业务需求转化为可配置的流处理逻辑(如阈值触发、语义匹配)。
- 指导数据工程师完成ETL流程开发,确保架构落地与技术可控,输出标准化技术文档与API接口规范。

2、任职要求​​
- 精通​​Flink/Spark实时计算框架​​,熟悉Kafka消息队列与数仓架构,具备PB级数据处理经验。
- 掌握​​Python数据预处理技术栈​​(Pandas/Numpy/Scikit-learn),熟悉文本清洗、特征工程与自动化处理流程。
- 掌握NoSQL数据库(Cassandra/MongoDB)与列式存储(ClickHouse),能针对舆情时序数据设计高并发读写方案。
- 熟悉NLP基础技术(分词/实体识别),有舆情语义分析或社会网络分析项目经验者优先。
- 3年以上大数据架构设计经验,有社交媒体监测、网络安全事件分析或政府舆情系统建设经验者优先。
- 加分项:掌握​​图计算框架​​(如Spark GraphX),支持舆情传播网络中的节点关系清洗与异常链路识别。


更多招聘背景:

公司介绍:新生代市场监测机构(简称“新生代”)成立于1998年,是中国最大、最具影响力的消费与媒介研究公司之一,主营业务涵盖媒体评估、品牌与广告传播以及消费者研究等多个领域,致力于提供持续的市场资讯、全方位的高附加值趋势分析和市场洞察,旨在帮助客户更好了解商业环境,解读前瞻性趋势,为营销决策保驾护航。

新生代是TGI全球网络的重要成员及中国独家战略合作伙伴,1997年双方合作共同创立China TGI暨CMMS 中国市场与媒体研究项目,迄今已愈二十五载。相关数据和研究发现被各大品牌主、广告、媒体及研究咨询机构广泛用于消费者分析、品牌定位及媒介策划/购买决策参考。经过多年的精耕和发展,中国市场与媒体研究(CMMS),中国新富人群研究(H3)等一系列自主数据库产品已成为中国消费者洞察和媒介策略制定的必备工具和重要标准。以自主研究为基石、共同发展壮大的新生代媒介研究已成为国际4A广告公司和国内主流媒体公认的优势品牌。与此同时,新生代在烟草、快速消费品、医药、时尚与奢侈品、IT、汽车与消费类电子、金融等领域也具有丰富的研究经验,在业内拥有良好的信誉和口碑。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

查看更多相似职位