Scrapy 基于 Python 快速 高层次的屏幕抓取和 Web 抓取爬虫框架 - 文章教程

Scrapy 基于 Python 快速 高层次的屏幕抓取和 Web 抓取爬虫框架

发布于 2020-02-26 字数 1936 浏览 1636 评论 0

Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和 Web 抓取框架,用于抓取 Web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy 基于 Python 快速 高层次的屏幕抓取和 Web 抓取爬虫框架

Scrapy 吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、sitemap 爬虫等,最新版本又提供了 Web2.0 爬虫的支持。

Scrapy 是一个开放源码和协作框架,用于从网站中提取您需要的数据,以一种快速,简单,但可扩展的方式。

构建并运行您的蛛网蜘蛛

pip install scrapy

cat > myspider.py <h2'):
          yield {'title': title.css('a ::text').get()}

      for next_page in response.css('a.next-posts-link'):
          yield response.follow(next_page, self.parse)

EOF

scrapy runspider myspider.py

把它们部署到云

pip install shub
shub login
Insert your Scrapinghub API Key: 

# Deploy the spider to Scrapy Cloud
 shub deploy

# Schedule the spider for execution
shub schedule blogspider 
Spider blogspider scheduled, watch it running here:
https://app.scrapinghub.com/p/26731/job/1/8

# Retrieve the scraped data
shub items 26731/1/8
{"title": "Improved Frontera: Web Crawling at Scale with Python 3 Support"}
{"title": "How to Crawl the Web Politely with Scrapy"}
...

特点

快速而有力

编写规则来提取数据,然后让Scrapy来完成其余的工作。

易于扩展

可扩展的设计,插入新的功能很容易,而不必触及核心。

便携式Python

用Python编写,在Linux、Windows、Mac和BSD上运行

相关链接

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

目前还没有任何评论,快来抢沙发吧!

关于作者

JSmiles

生命进入颠沛而奔忙的本质状态,并将以不断告别和相遇的陈旧方式继续下去。

2891 文章
评论
84935 人气
更多

推荐作者

伊面

文章 0 评论

白况

文章 0 评论

七禾

文章 0 评论

亢潮

文章 0 评论

悲念泪

文章 0 评论