返回介绍

14.1 MongoDB 的安装与使用

发布于 2025-04-21 19:15:31 字数 2294 浏览 0 评论 0 收藏

14.1.1 Scrapy 存储数据与 MongoDB 简介

第 10 章曾经讲过 Scrapy 数据的快捷输出方式 - Feed 输出,这种存储数据的方式适合小型的爬虫,对于大型爬虫数据的保存,还是需要数据库的,本章将以把数据存储到 MongoDB 和 MySQL 数据库为例,讲解 Scrapy 存储数据到数据库的方法。

MongoDB 作为非关系型数据库,基于 Key-Value 形式保存数据,与 Python 字典格式非常相似。MongoDB 没有 schema 的严格定义,能够轻松应对爬虫字段的变化等情况,也可以很轻松地横向扩展、分片和集群,非常适合存储大规模爬虫数据。

14.1.2 MongoDB 的安装

这里仅以 Windows 平台为例,简单讲解 MongoDB 的安装。至于 Linux 和 Mac 下的安装,相对简单,读者可以参考网上的相关教程。

打开 MongoDB 官网下载页面,选择 Community Server,如图 14-1 所示。

图 14-1 MongoDB 官网下载页面

单击 DOWNLOAD 下载 msi 安装文件。注意,MongoDB 不支持 32 位的 Windows 操作系统。

下载完成后,直接双击下载的 msi 文件安装,在安装界面中单击 Next,在选择安装类型时使用默认的 complete 安装,然后单击 Next,这里注意把左下角 Install MongoDB Compass 前面的钩去掉(如果不去掉,安装过程十分漫长。这里不安装这个工具,后面还会安装可视化的工具),然后单击 Next,直到安装完成即可。

14.1.3 MongoDB 的配置与启动

安装完成后,首先需要创建数据存储目录,例如要存储在 D 盘下的 mongodb 文件夹下的 data 文件夹里,就需要在 D 盘创建好这两个文件夹(D:\mongodb\data)。

然后可以启动 MongoDB 服务器了。在命令行模式下输入 cd C:\Program Files\MongoDB\Server\3.6\bin,进入 MongoDB 的 bin 安装目录下(注意这里要改成自己计算机上的安装目录),然后执行“mongod.exe --dbpath=D:\mongodb\data”。如果一切顺利,屏幕将出现类似[initandlisten] waiting for connections on port 27017(见图 14-2)这样的提示,说明 MongoDB 已经成功启动。

图 14-2 MongoDB 成功启动的提示

还可以在 D:\mongodb\下建立 logs 文件夹用于存储日志信息,使用以下命令启动。

>mongod.exe --dbpath=D:\mongodb\data
--logpath=D:\mongodb\logs\mongodb.log

这样服务器日志信息就会被保存在 logs 文件夹里面。

14.1.4 MongoDB 的可视化管理

在命令行模式下查看 MongoDB 的存储信息十分不便,可以借助一些软件可视化地查看 MongoDB 的存储内容。在 Windows 平台下,可以使用 Robo 3T 这个软件。打开其官网,选择与自己的系统对应的版本,然后下载安装即可。

安装完成后,先打开 MongoDB 服务器,然后启动 Robo 3T,系统打开窗口并弹出图 14-3 所示对话框。

图 14-3 Robo 3T 启动对话框

单击对话框左上角的 Create,系统弹出连接配置对话框,如图 14-4 所示。

图 14-4 Robo 3T 连接 MongonDB 配置

在配置对话框中输入链接名称,依次单击 Save 和 Connect,就连接到了 MongoDB 服务器。连接成功后,可在右侧看到 MongoDB 数据库文件目录。

上面介绍了 Windows 平台上 MongoDB 服务器的安装、配置和可视化,讲得比较简单,但是对爬虫数据存储已经足够了,在生产环境中如果需要为 MongoDB 配置安全措施,可以上网查询相关文档。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。