文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
12.4 本章小结及要求
本章简单介绍了下载器中间件及其激活和编写方法。这里只是做了大概的介绍,详细的定义推荐读者阅读 Scrapy 文档。其实,在读者阅读完本书内容后,再去阅读 Scrapy 官方文档就不会有什么难点了,相信读者可以在短时间内轻松地阅读完 Scrapy 官方文档。
从本章例子可以看出来,如果需要自定义中间件,关键就要编写一个类并定义 process-request 方法。在这个方法里写入自己的处理逻辑,从而实现对爬虫 request 的全局更改。
本章的要求是爬取新浪新闻。新浪新闻的栏目非常多,使用简单 Spider 类难以编写,读者可以使用 CrawlSpider 类编写爬取新浪新闻的爬虫,同时要注意设置使用随机用户代理和 IP 代理,防止被新浪服务器反爬虫禁止。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论