文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
15.5 本章小结及要求
本章讲解了分布式爬虫的原理、Redis 的安装及使用 scrapy_redis 包实现分布式爬虫的方法。分布式爬虫还有其他的实现形式,可以从网上查阅相关的实现原理。
本章还讨论了使用 Scrapyd 部署爬虫的技巧,并简单讨论了 Scrapy 框架中的去重问题。去重问题的关键是既要有较高的去重效率,又不能占用过多的系统资源。一般情况下,使用 Redis 缓存数据库去重是一种相对理想的去重方式。本章讨论的去重都是 URL 去重,至于内容的去重也有很多方法,本章的要求是完成在 pipeline 中使用数据库去重、使用文件去重,或者直接使用 pandas 等数据处理工具去重等练习,读者遇到具体问题时,可以使用适合自己的方法。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论