- 内容提要
- 序
- 前言
- 第一部分 背景知识
- 第 1 章 Spring Data 项目
- 第 2 章 Repository:便利的数据访问层
- 第 3 章 使用 Querydsl 实现类型安全的查询
- 第二部分 关系型数据库
- 第 4 章 JPA Repository
- 第 5 章 借助 Querydsl SQL 实现类型安全的 JDBC 编程
- 第三部分 NoSQL
- 第 6 章 MongoDB: 文档存储
- 第 7 章 Neo4j:图数据库
- 第 8 章 Redis:键/值存储
- 第四部分 快速应用开发
- 第 9 章 使用 Spring Roo 实现持久层
- 第 10 章 REST Repository 导出器
- 第五部分 大数据
- 第 11 章 Spring for Apache Hadoop
- 第 12 章 使用 Hadoop 分析数据
- 第 13 章 使用 Spring Batch 和 Spring Integration 创建大数据管道
- 第六部分 数据网格
- 第 14 章 分布式数据网格:GemFire
- 关于封面
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第 12 章 使用 Hadoop 分析数据
虽然 MapReduce 编程模型是 Hadoop 的核心,但是它的实现较为底层,因此开发人员无法以高效的方式编写复杂分析的 Job。为了提升开发效率,一些高级语言与 API 提供了对 MapReduce 编程模型底层的抽象。目前有许多编写数据分析 Job 的方案供选择,其中 Hive 和 Pig 项目是最流行的,它们分别提供了类 SQL 的查询语言以及面向数据流的编程语言。HBase 也是往 HDFS 中存储数据和对其进行分析的常选工具,它是一个面向列的分布式数据库。HBase 与 MapReduce 的不同之处是它提供了低延时的数据随机读写功能。MapReduce Job 可以读写 HBase 表结构的数据,但通常我们会通过 HBase 客户端 API 来完成数据处理。本章将介绍如何使用 Spring for Apache Hadoop 来编写使用这些 Hadoop 技术的 Java 应用程序。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论