>>分享SPSS,Hadoop等大数据处理技术,以及分布式架构以及集群系统的构建 书籍支持  卫琴直播  品书摘要  在线测试  资源下载  联系我们
发表一个新主题 开启一个新投票 回复文章 您是本文章第 23137 个阅读者 刷新本主题
 * 贴子主题:  Hadoop是否过时? 回复文章 点赞(0)  收藏  
作者:flybird    发表时间:2019-12-28 06:18:38     消息  查看  搜索  好友  邮件  复制  引用

目前,Hadoop已经进入2.0时代。它一共有三个组件:HDFS,YARN以及MapReduce。HDFS是分布式文件系统,负责存储输入和输出数据;YARN是分布式资源管理系统,负责调度集群的CPU和内存;而MapReduce是分布式计算框架,是Google为了进行网页排序(PageRank)而设计的, 一种非常通用的编程模型,可以用于编写单词计数, 网页排序(PageRank)等各种大数据处理程序。

Hadoop MapReduce,Spark,Storm等等都是分布式计算框架,分别适用于不同的应用场景。Hadoop MapReduce做离线计算比如日志处理,Spark跑机器学习,Storm做实时流计算。这样说吧, 它们相当于手机上不同的APP, 有着不同的功能。因此,严格来说并没有什么谁替代谁的问题,不同的计算框架适用于不同的应用场景。当然,Spark与Hadoop YARN可以用于完成同一种任务,且Spark执行性能更好,但是Spark更耗内存。因此,Spark并非可以完全替代Hadoop MapReduce,因为有些应用使用Hadoop MapReduce执行时间长一点没有问题,可以节省内存资源。

还有,Hadoop Mapreduce,Spark,Storm以及很多其他分布式计算框架均属于Hadoop生态系统,他们可以跑在同一个Hadoop集群, 共享HDFS和YARN。将这些计算框架比作手机上的APP的话,则Hadoop的HDFS与YARN相当于手机的操作系统。

所以,我的建议是:

Hadoop是大数据入门必须掌握的。因为MapReduce是最基础的分布式计算框架, 其他分布式计算框架比如Spark是依赖它构建,理解MapReudce才能理解其他系统。然后,Hadoop是其他Hadoop生态系统计算框架的运行平台,绕不开的。

根据公司需要学习Spark等其他计算框架,自学仅仅是入门,通过编写实际应用才能真正掌握。





程序猿的技术大观园:www.javathinker.net
  Java面向对象编程-->Java常用类(下)
  JavaWeb开发-->Web运作原理(Ⅰ)
  JSP与Hibernate开发-->Spring、JPA与Hibernate的整合
  Java网络编程-->Java网络编程入门
  精通Spring-->虚拟DOM和render()函数
  Vue3开发-->Vue CLI脚手架工具
  Spark客户端之Spark Submit的使用
  kafka+spark-streaming实时推荐系统性能优化笔记
  Kubernetes集群监控方案
  酒店评论数据分析和挖掘-展现数据分析全流程:报告展示篇
  快速部署DBus体验实时数据流计算
  最常用的四种大数据分析方法
  hadoop从零开始--HDFS篇
  hive 的支持的文件类型与 压缩格式
  Hadoop与Spring的集成
  大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整...
  Hadoop的简单单词统计案例
  大数据到底有多大
  将 Java 应用程序扩展到移动领域和云
  Hive基础教程
  大数据的概念、作用和处理流程
  更多...
 IPIP: 已设置保密
楼主      
1页 0条记录 当前第1
发表一个新主题 开启一个新投票 回复文章


中文版权所有: JavaThinker技术网站 Copyright 2016-2026 沪ICP备16029593号-2
荟萃Java程序员智慧的结晶,分享交流Java前沿技术。  联系我们
如有技术文章涉及侵权,请与本站管理员联系。