14.1 MongoDB 的安装与使用
14.1.1 Scrapy 存储数据与 MongoDB 简介
第 10 章曾经讲过 Scrapy 数据的快捷输出方式 - Feed 输出,这种存储数据的方式适合小型的爬虫,对于大型爬虫数据的保存,还是需要数据库的,本章将以把数据存储到 MongoDB 和 MySQL 数据库为例,讲解 Scrapy 存储数据到数据库的方法。
MongoDB 作为非关系型数据库,基于 Key-Value 形式保存数据,与 Python 字典格式非常相似。MongoDB 没有 schema 的严格定义,能够轻松应对爬虫字段的变化等情况,也可以很轻松地横向扩展、分片和集群,非常适合存储大规模爬虫数据。
14.1.2 MongoDB 的安装
这里仅以 Windows 平台为例,简单讲解 MongoDB 的安装。至于 Linux 和 Mac 下的安装,相对简单,读者可以参考网上的相关教程。
打开 MongoDB 官网下载页面,选择 Community Server,如图 14-1 所示。
图 14-1 MongoDB 官网下载页面
单击 DOWNLOAD 下载 msi 安装文件。注意,MongoDB 不支持 32 位的 Windows 操作系统。
下载完成后,直接双击下载的 msi 文件安装,在安装界面中单击 Next,在选择安装类型时使用默认的 complete 安装,然后单击 Next,这里注意把左下角 Install MongoDB Compass 前面的钩去掉(如果不去掉,安装过程十分漫长。这里不安装这个工具,后面还会安装可视化的工具),然后单击 Next,直到安装完成即可。
14.1.3 MongoDB 的配置与启动
安装完成后,首先需要创建数据存储目录,例如要存储在 D 盘下的 mongodb 文件夹下的 data 文件夹里,就需要在 D 盘创建好这两个文件夹(D:\mongodb\data)。
然后可以启动 MongoDB 服务器了。在命令行模式下输入 cd C:\Program Files\MongoDB\Server\3.6\bin,进入 MongoDB 的 bin 安装目录下(注意这里要改成自己计算机上的安装目录),然后执行“mongod.exe --dbpath=D:\mongodb\data”。如果一切顺利,屏幕将出现类似[initandlisten] waiting for connections on port 27017(见图 14-2)这样的提示,说明 MongoDB 已经成功启动。
图 14-2 MongoDB 成功启动的提示
还可以在 D:\mongodb\下建立 logs 文件夹用于存储日志信息,使用以下命令启动。
>mongod.exe --dbpath=D:\mongodb\data --logpath=D:\mongodb\logs\mongodb.log
这样服务器日志信息就会被保存在 logs 文件夹里面。
14.1.4 MongoDB 的可视化管理
在命令行模式下查看 MongoDB 的存储信息十分不便,可以借助一些软件可视化地查看 MongoDB 的存储内容。在 Windows 平台下,可以使用 Robo 3T 这个软件。打开其官网,选择与自己的系统对应的版本,然后下载安装即可。
安装完成后,先打开 MongoDB 服务器,然后启动 Robo 3T,系统打开窗口并弹出图 14-3 所示对话框。
图 14-3 Robo 3T 启动对话框
单击对话框左上角的 Create,系统弹出连接配置对话框,如图 14-4 所示。
图 14-4 Robo 3T 连接 MongonDB 配置
在配置对话框中输入链接名称,依次单击 Save 和 Connect,就连接到了 MongoDB 服务器。连接成功后,可在右侧看到 MongoDB 数据库文件目录。
上面介绍了 Windows 平台上 MongoDB 服务器的安装、配置和可视化,讲得比较简单,但是对爬虫数据存储已经足够了,在生产环境中如果需要为 MongoDB 配置安全措施,可以上网查询相关文档。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论