返回介绍

14.1 MongoDB 的安装与使用

发布于 2025-04-21 19:15:31 字数 2294 浏览 0 评论 0 收藏

14.1.1 Scrapy 存储数据与 MongoDB 简介

第 10 章曾经讲过 Scrapy 数据的快捷输出方式 - Feed 输出,这种存储数据的方式适合小型的爬虫,对于大型爬虫数据的保存,还是需要数据库的,本章将以把数据存储到 MongoDB 和 MySQL 数据库为例,讲解 Scrapy 存储数据到数据库的方法。

MongoDB 作为非关系型数据库,基于 Key-Value 形式保存数据,与 Python 字典格式非常相似。MongoDB 没有 schema 的严格定义,能够轻松应对爬虫字段的变化等情况,也可以很轻松地横向扩展、分片和集群,非常适合存储大规模爬虫数据。

14.1.2 MongoDB 的安装

这里仅以 Windows 平台为例,简单讲解 MongoDB 的安装。至于 Linux 和 Mac 下的安装,相对简单,读者可以参考网上的相关教程。

打开 MongoDB 官网下载页面,选择 Community Server,如图 14-1 所示。

图 14-1 MongoDB 官网下载页面

单击 DOWNLOAD 下载 msi 安装文件。注意,MongoDB 不支持 32 位的 Windows 操作系统。

下载完成后,直接双击下载的 msi 文件安装,在安装界面中单击 Next,在选择安装类型时使用默认的 complete 安装,然后单击 Next,这里注意把左下角 Install MongoDB Compass 前面的钩去掉(如果不去掉,安装过程十分漫长。这里不安装这个工具,后面还会安装可视化的工具),然后单击 Next,直到安装完成即可。

14.1.3 MongoDB 的配置与启动

安装完成后,首先需要创建数据存储目录,例如要存储在 D 盘下的 mongodb 文件夹下的 data 文件夹里,就需要在 D 盘创建好这两个文件夹(D:\mongodb\data)。

然后可以启动 MongoDB 服务器了。在命令行模式下输入 cd C:\Program Files\MongoDB\Server\3.6\bin,进入 MongoDB 的 bin 安装目录下(注意这里要改成自己计算机上的安装目录),然后执行“mongod.exe --dbpath=D:\mongodb\data”。如果一切顺利,屏幕将出现类似[initandlisten] waiting for connections on port 27017(见图 14-2)这样的提示,说明 MongoDB 已经成功启动。

图 14-2 MongoDB 成功启动的提示

还可以在 D:\mongodb\下建立 logs 文件夹用于存储日志信息,使用以下命令启动。

>mongod.exe --dbpath=D:\mongodb\data
--logpath=D:\mongodb\logs\mongodb.log

这样服务器日志信息就会被保存在 logs 文件夹里面。

14.1.4 MongoDB 的可视化管理

在命令行模式下查看 MongoDB 的存储信息十分不便,可以借助一些软件可视化地查看 MongoDB 的存储内容。在 Windows 平台下,可以使用 Robo 3T 这个软件。打开其官网,选择与自己的系统对应的版本,然后下载安装即可。

安装完成后,先打开 MongoDB 服务器,然后启动 Robo 3T,系统打开窗口并弹出图 14-3 所示对话框。

图 14-3 Robo 3T 启动对话框

单击对话框左上角的 Create,系统弹出连接配置对话框,如图 14-4 所示。

图 14-4 Robo 3T 连接 MongonDB 配置

在配置对话框中输入链接名称,依次单击 Save 和 Connect,就连接到了 MongoDB 服务器。连接成功后,可在右侧看到 MongoDB 数据库文件目录。

上面介绍了 Windows 平台上 MongoDB 服务器的安装、配置和可视化,讲得比较简单,但是对爬虫数据存储已经足够了,在生产环境中如果需要为 MongoDB 配置安全措施,可以上网查询相关文档。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。