职位描述
职责描述
1、参与数据采集系统的开发
2、负责网页信息和APP数据抽取、清洗、消重等工作,提升平台的抓取效率和质量;
3、公司大数据平台算法编码和spark优化
4、大数据平台维护
5、与产品部门和上级沟通确保数据的准确性及时性
6、参与公司教学任务(Python Java)。
任职要求:
1. 大学本科及以上学历
2. 至少1-3年以上数据采集和数据分析经验;
3. 掌握Spark,有scala或python开发spark分析程序的经验;
4. 熟练掌握html、css、xpath、正则表达式、scrapy、selenium、playwright、requests、pandas;
5. 熟悉scala、python等编程语言。
6. 熟悉常见的反爬策略(验证码识别,IP代理池、应用Ip池、headers认证和cookie等),有一定的研究和解决问题的能力,有一定的逆向能力。
7. 了解大数据生态体系,熟悉hadoop和spark。
8. 熟练使用Python pandas等类库进行数据清洗和分析;
9. 熟悉MongoDB, Redis, MySQL等工具的基本操作。
10. 熟练使用Python,Shell,Git、SVN版本控制,熟悉Linux开发环境。
11.会Java技术优先。