返回介绍

15.5 本章小结及要求

发布于 2025-04-21 19:15:31 字数 329 浏览 0 评论 0 收藏

本章讲解了分布式爬虫的原理、Redis 的安装及使用 scrapy_redis 包实现分布式爬虫的方法。分布式爬虫还有其他的实现形式,可以从网上查阅相关的实现原理。

本章还讨论了使用 Scrapyd 部署爬虫的技巧,并简单讨论了 Scrapy 框架中的去重问题。去重问题的关键是既要有较高的去重效率,又不能占用过多的系统资源。一般情况下,使用 Redis 缓存数据库去重是一种相对理想的去重方式。本章讨论的去重都是 URL 去重,至于内容的去重也有很多方法,本章的要求是完成在 pipeline 中使用数据库去重、使用文件去重,或者直接使用 pandas 等数据处理工具去重等练习,读者遇到具体问题时,可以使用适合自己的方法。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。