返回介绍

第 11 章 Spring for Apache Hadoop

发布于 2025-04-22 19:57:21 字数 1104 浏览 0 评论 0 收藏

Apache Hadoop( http://hadoop.apache.org/ )是一个开源项目,该项目起源于雅虎研发的一个新型网络搜索引擎的核心组件。Hadoop 的架构是在谷歌开发的闭源网络搜索引擎架构基础上构建的,可以在 http://research.google.com/archive/gfs.html 以及 http://research.google.com/archive/mapreduce.html 这两个研究刊物链接中找到相关描述。Hadoop 架构由两个主要的部分组成:一个分布式文件系统以及一个在大型的商业服务器集群上运行的分布式数据处理引擎。Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)负责存储和复制数据,以维持跨集群的数据访问的可靠性。Hadoop MapReduce 负责提供编程模型,并且在数据存储位置附近执行计算使得运行时间得到优化。代码和数据托管在同一个物理节点是最大限度缩短处理大(高达 PB 级)数据所需时间的核心技术之一。

虽然 Apache Hadoop 原本的目的是实现网页搜索引擎,但它却是一个通用的平台,可以用于针对海量数据的各种处理任务。由于它结合了开源软件、廉价的商业服务器,以及对大量新的非结构化数据来源(例如,推特、日志文件、遥测)进行分析所带来的切实利益,这三者结合,促使 Hadoop 成为企业寻求实现大数据解决方案的事实标准。

本章从介绍 Hadoop 的“Hello world”应用程序 wordcount 开始。wordcount 应用程序使用 Hadoop MapReduce API 编写。它会读取文本文件作为输入并创建一个输出文件记录所读取的每一个单词出现的次数。首先介绍 Hadoop 应用程序的传统开发方式并使用命令行工具来执行,接着说明如何将这个应用程序开发为标准的 Java 应用程序并使用依赖注入来进行配置。我们使用 Spring for Apache Hadoop 的 HDFS 提供的脚本功能,将输入的文件复制到 HDFS 之中并从 HDFS 中输出结果文件。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。