岗位职责
1、负责设计、开发和维护高效、稳定的爬虫系统,提升数据采集的效率和质量;
2、负责多平台信息抽取、数据清洗、入库、服务化等研发和优化工作;
3、解决实际开发过程中碰到的各类产品数据需求和接口问题。
任职要求
1、统招本科及以上学历,熟练使用Python或其他相关语言进行爬虫开发,拥有扎实的编码和调试能力,并能够编写高质量的可维护代码;
2、熟悉各种爬虫框架和工具,如Scrapy、BeautifulSoup、Selenium等,能够根据需求灵活使用,同时熟悉反爬虫机制的解决方案;
3、具备大规模分布式爬虫系统设计和开发经验,能够解决分布式爬虫中的挑战和问题,如任务调度、数据同步和去重等;
4、深入理解网络协议和网页结构,能够处理复杂的页面结构和动态内容;
5、熟悉数据库的使用,能够设计和优化数据存储和查询方案,具备数据清洗和处理的能力。
6、有开源大模型部署及微调经验优先
工作时间:995