返回介绍

9.1 Scrapy 爬虫框架简介与安装

发布于 2025-04-21 19:15:28 字数 2765 浏览 0 评论 0 收藏

9.1.1 Scrapy 爬虫框架简介

Scrapy 爬虫框架简介与安装

前面讲解了 Requests 这个编写爬虫的库,可以发现,无论是待爬取的队列、保存爬取内容还是实现多线程等,都需要自己写代码来实现,而所谓爬虫框架,就像一个半成品的爬虫,它已经为我们实现了工作队列、下载器、保存处理数据的逻辑,以及日志、异常处理等功能。对使用 Scrapy 这个爬虫框架而言,我们更多的工作是配置这个爬虫框架,针对具体要爬取的网站,只须编写这个网站爬取的规则,而诸如多线程下载、异常处理等,全部交给框架来实现。

从上面的介绍可以看出,爬虫框架比 Requests 库复杂、庞大,毕竟它实现的功能比 Requests 库多很多。爬虫框架在被配置好后就可以很顺畅地根据配置去爬取,还会自动处理很多东西,而且效率往往比人们自己为 Requests 添加同样功能的效率高。因此,使用爬虫框架能大大简化人们编写爬虫的工作量,并且能提高爬虫运行的效率。

Scrapy 爬虫框架是 Python 中最著名、最受欢迎、社区最活跃的爬虫框架。它是一个相对成熟的框架,有着丰富的文档和开放的社区交流空间。Scrapy 爬虫框架是人们为了爬取网站数据、提取结构性数据而编写的,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。其最初是为了网络抓取所设计的,也可以应用在获取 API 所返回的数据或者编写通用的网络爬虫。本书的下半部分就着重讲解 Scrapy 爬虫框架的使用技巧。

9.1.2 Scrapy 爬虫框架的安装

在 Linux 和 Mac 上安装 Scrapy 爬虫框架相对简单,只要在命令行模式下使用 pip 来安装即可。

>pip install scrapy 

使用 pip 安装会自动安装 Scrapy 爬虫框架依赖的各种包,如果安装速度慢,读者可以使用豆瓣源安装。

>pip install scrapy -i https://pypi.douban.com/simple/

这样就使用了豆瓣为人们在国内提供的源来安装,下载速度非常快,读者以后在安装其他的大型 Python 包时,可以试试用豆瓣源安装。

下面着重说一下在 Windows 平台上安装 Scrapy 爬虫框架。在 Windows 上使用 pip 安装 Scrapy 爬虫框架可能会出现错误,最常见的 3 个错误及解决办法如下。

1. 提示 error:unable to find vcvarsall.bat

这是使用 pip 在 Windows 平台上安装时最常见的错误。这个错误主要由在 Windows 平台上安装 Twisted 这个库产生的错误引起,Twisted 是事件驱动异步框架,Scrapy 使用了 Twisted 作为框架实现异步 IO。针对这个错误,可以先安装 Twisted。首先下载与计算机操作系统的位数、Python 版本相对应的二进制 whl 安装包,如图 9-1 所示。

图 9-1 Twisted 二进制安装包下载页面

要下载与操作系统的位数、Python 版本对应版本的安装包,如使用的计算机是 64 位的 Windows 系统,Python 版本是 3.6.3,可以单击下载 Twisted-17.9.0-cp36-cp36mwin_amd64.whl 这个安装包。下载好后在命令行模式下执行。

>pip install
C:\Users\riyue\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl 

注意 pip install 后面要填写下载的 whl 安装包的绝对路径,这里是放在了 C 盘用户文件夹下的 Downloads 文件夹里。这样安装好了 Twisted 之后,再重新执行如下命令,就可以直接在 Windows 平台上安装好 Scrapy 爬虫框架了。

>pip install scrapy 

2. 提示安装 Lxml 错误

这个错误很明显是由未能成功安装 Lxml 引起的,因此找到与计算机操作系统的位数、Python 版本对应的 wheel 安装包,然后运行如下命令安装。

>pip install
C:\Users\riyue\Downloads\lxml-3.6.0-cp36-cp36m-win_amd64.whl 

最后,重新执行如下命令,即可成功安装 Scrapy 爬虫框架。

>pip install scrapy 

3. 提示 TypeError: parse() got an unexpected keyword argument'transport_encoding'

这个错误经常出现在安装了 Anaconda 版本的 Python 中,解决办法是输入命令>conda install -c anaconda html5lib,会看到一系列更新的结果,然后再次使用 pip 安装,就可以成功安装了。

安装完成后,执行如下命令。

>scrapy version  

如果成功显示 Scrapy 版本,就代表安装好了。

在 Windows 平台上如果还遇到其他的错误提示,读者可以尝试按照错误提示安装对应的依赖库,完成 Scrapy 爬虫框架的安装。

本节简单介绍了爬虫框架的概念和 Scrapy 爬虫框架的安装,特别提示了在 Windows 平台上安装 Scrapy 爬虫框架遇到的常见问题的解决办法,读者以后在安装其他包遇到困难时,也可以下载对应的二进制 wheel 安装包来安装,非常方便。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。