Spider 基于 RabbitMQ 中间件的爬虫的 Ruby 实现

发布于 2022-02-28 20:20:58 字数 1253 浏览 847 评论 0

设计思路

爬虫(典型的生产者 - 消费者模型)在我的理念里由以下几部分组成:

  • Fetcher 抓取器:
    • Fetcher 这里的实现是对 HttpClient 的封装
    • Fetcher 拿到 Response 之后会判定是否需要写入队列 - 然后被消费者消费
  • Scheduler 调度器
  • Middleware 中间键

衍生开来:

  • 多线程抓取器 - Fetcher 跑在线程里面
  • 分析器 - 解析抓取的内容

怎样安装

gem install spider -s https://github.com/w-zengtao/rb-spider

依赖于

Redis
RabbitMQ

配置文件

config.yml

默认配置如下

redis:
  url: 127.0.0.1
  port: 6379
  db: 0
rabbitmq:
  vhost: "/"
  username: guest
  password: guest
  host: 127.0.0.1

如何使用

如我们在设计思路里面所讲,我们的程序的入口应该在 Scheduler 模块


源码里面的一些技巧

  1. Ruby的 单例模式
  2. Ruby的 线程池 - 也就是CPU资源池
  3. 利用轮询设计的 定时器

项目地址:https://github.com/w-zengtao/rb-spider

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

列表为空,暂无数据

关于作者

JSmiles

生命进入颠沛而奔忙的本质状态,并将以不断告别和相遇的陈旧方式继续下去。

0 文章
0 评论
84935 人气
更多

推荐作者

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击“接受”或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。