9.1 Scrapy 爬虫框架简介与安装
9.1.1 Scrapy 爬虫框架简介
Scrapy 爬虫框架简介与安装
前面讲解了 Requests 这个编写爬虫的库,可以发现,无论是待爬取的队列、保存爬取内容还是实现多线程等,都需要自己写代码来实现,而所谓爬虫框架,就像一个半成品的爬虫,它已经为我们实现了工作队列、下载器、保存处理数据的逻辑,以及日志、异常处理等功能。对使用 Scrapy 这个爬虫框架而言,我们更多的工作是配置这个爬虫框架,针对具体要爬取的网站,只须编写这个网站爬取的规则,而诸如多线程下载、异常处理等,全部交给框架来实现。
从上面的介绍可以看出,爬虫框架比 Requests 库复杂、庞大,毕竟它实现的功能比 Requests 库多很多。爬虫框架在被配置好后就可以很顺畅地根据配置去爬取,还会自动处理很多东西,而且效率往往比人们自己为 Requests 添加同样功能的效率高。因此,使用爬虫框架能大大简化人们编写爬虫的工作量,并且能提高爬虫运行的效率。
Scrapy 爬虫框架是 Python 中最著名、最受欢迎、社区最活跃的爬虫框架。它是一个相对成熟的框架,有着丰富的文档和开放的社区交流空间。Scrapy 爬虫框架是人们为了爬取网站数据、提取结构性数据而编写的,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。其最初是为了网络抓取所设计的,也可以应用在获取 API 所返回的数据或者编写通用的网络爬虫。本书的下半部分就着重讲解 Scrapy 爬虫框架的使用技巧。
9.1.2 Scrapy 爬虫框架的安装
在 Linux 和 Mac 上安装 Scrapy 爬虫框架相对简单,只要在命令行模式下使用 pip 来安装即可。
>pip install scrapy
使用 pip 安装会自动安装 Scrapy 爬虫框架依赖的各种包,如果安装速度慢,读者可以使用豆瓣源安装。
>pip install scrapy -i https://pypi.douban.com/simple/
这样就使用了豆瓣为人们在国内提供的源来安装,下载速度非常快,读者以后在安装其他的大型 Python 包时,可以试试用豆瓣源安装。
下面着重说一下在 Windows 平台上安装 Scrapy 爬虫框架。在 Windows 上使用 pip 安装 Scrapy 爬虫框架可能会出现错误,最常见的 3 个错误及解决办法如下。
1. 提示 error:unable to find vcvarsall.bat
这是使用 pip 在 Windows 平台上安装时最常见的错误。这个错误主要由在 Windows 平台上安装 Twisted 这个库产生的错误引起,Twisted 是事件驱动异步框架,Scrapy 使用了 Twisted 作为框架实现异步 IO。针对这个错误,可以先安装 Twisted。首先下载与计算机操作系统的位数、Python 版本相对应的二进制 whl 安装包,如图 9-1 所示。
图 9-1 Twisted 二进制安装包下载页面
要下载与操作系统的位数、Python 版本对应版本的安装包,如使用的计算机是 64 位的 Windows 系统,Python 版本是 3.6.3,可以单击下载 Twisted-17.9.0-cp36-cp36mwin_amd64.whl 这个安装包。下载好后在命令行模式下执行。
>pip install C:\Users\riyue\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
注意 pip install 后面要填写下载的 whl 安装包的绝对路径,这里是放在了 C 盘用户文件夹下的 Downloads 文件夹里。这样安装好了 Twisted 之后,再重新执行如下命令,就可以直接在 Windows 平台上安装好 Scrapy 爬虫框架了。
>pip install scrapy
2. 提示安装 Lxml 错误
这个错误很明显是由未能成功安装 Lxml 引起的,因此找到与计算机操作系统的位数、Python 版本对应的 wheel 安装包,然后运行如下命令安装。
>pip install C:\Users\riyue\Downloads\lxml-3.6.0-cp36-cp36m-win_amd64.whl
最后,重新执行如下命令,即可成功安装 Scrapy 爬虫框架。
>pip install scrapy
3. 提示 TypeError: parse() got an unexpected keyword argument'transport_encoding'
这个错误经常出现在安装了 Anaconda 版本的 Python 中,解决办法是输入命令>conda install -c anaconda html5lib,会看到一系列更新的结果,然后再次使用 pip 安装,就可以成功安装了。
安装完成后,执行如下命令。
>scrapy version
如果成功显示 Scrapy 版本,就代表安装好了。
在 Windows 平台上如果还遇到其他的错误提示,读者可以尝试按照错误提示安装对应的依赖库,完成 Scrapy 爬虫框架的安装。
本节简单介绍了爬虫框架的概念和 Scrapy 爬虫框架的安装,特别提示了在 Windows 平台上安装 Scrapy 爬虫框架遇到的常见问题的解决办法,读者以后在安装其他包遇到困难时,也可以下载对应的二进制 wheel 安装包来安装,非常方便。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论