>>分享SPSS,Hadoop等大数据处理技术,以及分布式架构以及集群系统的构建 书籍支持  卫琴直播  品书摘要  在线测试  资源下载  联系我们
发表一个新主题 开启一个新投票 回复文章 您是本文章第 23996 个阅读者 刷新本主题
 * 贴子主题:  Hadoop生态系统介绍 回复文章 点赞(0)  收藏  
作者:zhangzl419    发表时间:2019-12-31 13:08:27     消息  查看  搜索  好友  邮件  复制  引用

Hadoop生态系统介绍
==================

Hadoop是目前大数据分析与处理领域的事实上的标准,本文主要是对 Hadoop 生态系统做个初步的介绍。

Map Reduce:MapReduce 是使用集群的并行,分布式算法处理大数据集的可编程模型。Apache MapReduce 是从 Google MapReduce 派生而来的:在大型集群中简化数据处理。当前的 Apache MapReduce 版本基于 Apache YARN 框架构建。YARN = “Yet-Another-Resource-Negotiator”。YARN 可以运行非 MapReduce 模型的应用。YARN 是 Apache Hadoop 想要超越 MapReduce 数据处理能力的一种尝试。

HDFS:The Hadoop Distributed File System (HDFS) 提供跨多个机器存储大型文件的一种解决方案。Hadoop 和 HDFS 都是从 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前,NameNode 是 HDFS 集群的一个单点故障 (SPOF) 。利用 Zookeeper,HDFS 高可用性特性解决了这个问题,提供选项来运行两个重复的 NameNodes,在同一个集群中,同一个 Active/Passive 配置。

HBase:灵感来源于 Google BigTable。HBase 是 Google Bigtable 的开源实现,类似 Google Bigtable 利用 GFS 作为其文件存储系统,HBase 利用 Hadoop HDFS 作为其文件存储系统;Google 运行 MapReduce 来处理 Bigtable 中的海量数据,HBase 同样利用 Hadoop MapReduce 来处理 HBase 中的海量数据;Google Bigtable 利用 Chubby 作为协同服务,HBase 利用 Zookeeper 作为对应。

Hive:Facebook 开发的数据仓库基础设施。数据汇总,查询和分析。Hive 提供类似 SQL 的语言 (不兼容 SQL92):HiveQL。

Pig:Pig 提供一个引擎在 Hadoop 并行执行数据流。Pig 包含一个语言:Pig Latin,用来表达这些数据流。Pig Latin 包括大量的传统数据操作 (join, sort, filter, etc.), 也可以让用户开发他们自己的函数,用来查看,处理和编写数据。Pig 在 hadoop 上运行,在 Hadoop 分布式文件系统,HDFS 和 Hadoop 处理系统,MapReduce 中都有使用。Pig 使用 MapReduce 来执行所有的数据处理,编译 Pig Latin 脚本,用户可以编写到一个系列,一个或者多个的 MapReduce 作业,然后执行。Pig Latin 看起来跟大多数编程语言都不一样,没有 if 状态和 for 循环。

Zookeeper:ZooKeeper 是 Hadoop 的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper 是 Google 的 Chubby 一个开源的实现.是高有效和可靠的协同工作系统。Zookeeper 能够用来 leader 选举,配置信息维护等.在一个分布式的环境中,我们需要一个 Master 实例或存储一些配置信息,确保文件写入的一致性等。

Mahout:基于 MapReduce 的机器学习库和数学库。

Hadoop是一个持续发展的开源系统,它的生态系统中还有其他一些非常有用的数据处理软件,并且由于在持续发展中,所以将来还有可能会加入新的成员,就让我们持续关注Hadoop的成长,在使用和发展中持续支持Hadoop。





程序猿的技术大观园:www.javathinker.net
  Java面向对象编程-->Java语言的基本语法和规范
  JavaWeb开发-->JavaWeb应用入门(Ⅰ)
  JSP与Hibernate开发-->Spring、JPA与Hibernate的整合
  Java网络编程-->用Spring整合CXF发布Web服务
  精通Spring-->通过Axios访问服务器
  Vue3开发-->Vue组件开发高级技术
  springboot的缓存技术
  spark读取kafka后写入redis
  spark-redis入门教程
  K8S使用dashboard管理集群
  kubeadm安装k8s集群1.17版本
  glusterfs 7 分布式存储 目前最新版实战详解
  TiDB在360的落地及实战干货
  MapReduce实现自定义排序功能
  Kubernetes(K8S)集群管理Docker容器(部署篇)
  Nginx+Keepalived高可用集群
  Hadoop 之 HDFS
  Spark Thrift JDBCServer应用场景解析与实战案例
  快速部署DBus体验实时数据流计算
  Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网...
  大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整...
  更多...
 IPIP: 已设置保密
楼主      
1页 0条记录 当前第1
发表一个新主题 开启一个新投票 回复文章


中文版权所有: JavaThinker技术网站 Copyright 2016-2026 沪ICP备16029593号-2
荟萃Java程序员智慧的结晶,分享交流Java前沿技术。  联系我们
如有技术文章涉及侵权,请与本站管理员联系。