返回介绍

12.4 本章小结及要求

发布于 2025-04-21 19:15:29 字数 356 浏览 0 评论 0 收藏

本章简单介绍了下载器中间件及其激活和编写方法。这里只是做了大概的介绍,详细的定义推荐读者阅读 Scrapy 文档。其实,在读者阅读完本书内容后,再去阅读 Scrapy 官方文档就不会有什么难点了,相信读者可以在短时间内轻松地阅读完 Scrapy 官方文档。

从本章例子可以看出来,如果需要自定义中间件,关键就要编写一个类并定义 process-request 方法。在这个方法里写入自己的处理逻辑,从而实现对爬虫 request 的全局更改。

本章的要求是爬取新浪新闻。新浪新闻的栏目非常多,使用简单 Spider 类难以编写,读者可以使用 CrawlSpider 类编写爬取新浪新闻的爬虫,同时要注意设置使用随机用户代理和 IP 代理,防止被新浪服务器反爬虫禁止。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。