返回介绍

11.4 本章小结及要求

发布于 2025-04-21 19:15:29 字数 323 浏览 0 评论 0 收藏

本章重点以爬取房天下二手房房源为例,讲解用 CrawlSpider 类编写爬虫的技巧,其中最关键的是编写 URL 的提取规则。本章还大体介绍了 Scrapy 的架构和数据流,这有助于读者理解 Scrapy 工作机制,有利于读者编写爬虫。本章对 Scrapy 架构的讲解内容偏重理论,这部分内容参考了 Scrapy 的官方文档说明。

本章的要求是读者用 CrawlSpider 类编写我爱我家二手房房源爬虫。读者可以与第 10 章中用 BasicSpider 类编写的我爱我家二手房房源爬虫作对比,通过对比,更能体会用 CrawlSpider 类编写整站数据爬虫,十分简洁,它允许用户用少量代码实现对全站数据的抓取。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。