- 内容提要
- 序
- 前言
- 第一部分 背景知识
- 第 1 章 Spring Data 项目
- 第 2 章 Repository:便利的数据访问层
- 第 3 章 使用 Querydsl 实现类型安全的查询
- 第二部分 关系型数据库
- 第 4 章 JPA Repository
- 第 5 章 借助 Querydsl SQL 实现类型安全的 JDBC 编程
- 第三部分 NoSQL
- 第 6 章 MongoDB: 文档存储
- 第 7 章 Neo4j:图数据库
- 第 8 章 Redis:键/值存储
- 第四部分 快速应用开发
- 第 9 章 使用 Spring Roo 实现持久层
- 第 10 章 REST Repository 导出器
- 第五部分 大数据
- 第 11 章 Spring for Apache Hadoop
- 第 12 章 使用 Hadoop 分析数据
- 第 13 章 使用 Spring Batch 和 Spring Integration 创建大数据管道
- 第六部分 数据网格
- 第 14 章 分布式数据网格:GemFire
- 关于封面
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第 13 章 使用 Spring Batch 和 Spring Integration 创建大数据管道
Spring for Apache Hadoop 的目标在于简化 Hadoop 应用程序的开发。Hadoop 所包含的功能远远超出了在 wordcount 样例中所展示的那样 - 仅执行单一的 MapReduce Job 并将几个文件在 HDFS 中移进移出。搭建现实世界里的 Hadoop 应用还需要非常多的功能,包括收集事件驱动数据、使用像 Pig 这样的程序语言来编写数据分析 Job、调度、链接多个分析 Job,以及在 HDFS 与其他系统如数据库或传统的文件系统之间移动大量数据。
Spring Integration 提供了协调事件驱动活动的基础功能,例如,传送日志文件、处理事件流、实时分析或者触发批量数据处理分析 Job 的执行。Spring Batch 提供了协调工作流中粗粒度(coarse-grained)步骤(step)的框架,这其中包含了基于 Hadoop 的步骤以及 Hadoop 之外的步骤。同时 Spring Batch 也提供了高效的数据处理能力,可在不同的数据源与 HDFS 之间移动数据,例如 Flat 文件、关系型数据或 NoSQL 数据库。
Spring for Apache Hadoop 与 Spring Integration 和 Spring Batch 的结合提供了全面且一致的编程模型,以用于实现 Hadoop 应用程序,这类应用可以涵盖各种类型的功能。另一个产品 Splunk,也需要大量的功能来构建现实世界中大数据管道的解决方案。Spring 对 Splunk 的支持可帮助你创建复杂的 Splunk 应用,并且可融合这两种技术以提供解决方案。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论