>>分享SPSS,Hadoop等大数据处理技术,以及分布式架构以及集群系统的构建 书籍支持  卫琴直播  品书摘要  在线测试  资源下载  联系我们
发表一个新主题 开启一个新投票 回复文章 您是本文章第 24456 个阅读者 刷新本主题
 * 贴子主题:  Hadoop起源及其四大特性详解 回复文章 点赞(0)  收藏  
作者:sunshine    发表时间:2024-04-14 06:21:39     消息  查看  搜索  好友  邮件  复制  引用

Hadoop你是否熟悉,这里就向大家简单介绍一下Hadoop的概念,起源以及他有什么特性,希望通过本文的介绍大家对Hadoop有一定的认识,欢迎大家一起来学习。

作者:PowerNTT 来源:csdn.net

本节和大家一起来了解一下Hadoop,主要内容有它的概念介绍,特性以及起源,欢迎大家一起来学习Hadoop方面的知识,相信通过本节的介绍你一定会对Hadoop有一定的了解。

Hadoop

起源:Google的集群系统
开源实现
Hadoop研究
Hadoop的Logo
项目主页:http://hadoop.apache.org
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。
下面列举hadoop主要的一些特点:
1扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
2成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
3高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
4可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。

起源:Google的集群系统

Google的数据中心使用廉价的LinuxPC机组成集群,在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个:
1、GFS(GoogleFileSystem)。一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化,包括:超大文件的访问,读操作比例远超过写操作,PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。详见Google的工程师发布的GFS论文。
2、MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对,Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。
3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。


程序猿的技术大观园:www.javathinker.net
  Java面向对象编程-->泛型
  JavaWeb开发-->自定义JSP标签(Ⅰ)
  JSP与Hibernate开发-->映射对象标识符
  Java网络编程-->用Spring整合CXF发布Web服务
  精通Spring-->Vue组件开发基础
  Vue3开发-->通过Vuex进行状态管理
  大数据存储单位介绍(TB、PB、EB、ZB、YB有多大)
  Redis服务器重要属性详解
  spark-redis使用简易脚本
  Hadoop、Spark、HBase与Redis的适用性讨论
  基于spark-streaming实时推荐系统
  Nginx+Keepalived高可用集群
  Hadoop中文词频统计
  Spark on Yarn with Hive实战案例与常见问题解决
  Spark Thrift JDBCServer应用场景解析与实战案例
  SNMP 已死 - Streaming Telemetry 流遥测技术
  Hadoop2.6.5+centos7.5三节点大数据集群部署搭建
  Zookeeper+Kafka集群搭建
  超详细的Hadoop2配置详解
  数据科学最终迁移到云端的5个原因
  大数据的处理技术
  更多...
 IPIP: 已设置保密
楼主      
该用户目前不在线 gywfind 
  
威望: 0
级别: 新手上路
魅力: 155
经验: 155
现金: 1088
发文章数: 11
注册时间: 0001-01-01
 消息  查看  搜索  好友  邮件  复制  引用


增加一条,作为第五十二条:“全国人民代表大会常务委员会通过立法规划、年度立法计划等形式,加强对立法工作的统筹安排。编制立法规划和年度立法计划,应当认真研究代表议案和建议,广泛征集意见,科学论证评估,根据经济社会发展和民主法治建设的需要,确定立法项目,提高立法的及时性、针对性和系统性。立法规划和年度立法计划由委员长会议通过并向社会公布。
福彩双色球澳洲幸运20幸运飞艇
发文章时间 2024-04-14 06:21:39
 IPIP: 已设置保密 1 楼     
1页 1条记录 当前第1
发表一个新主题 开启一个新投票 回复文章


中文版权所有: JavaThinker技术网站 Copyright 2016-2026 沪ICP备16029593号-2
荟萃Java程序员智慧的结晶,分享交流Java前沿技术。  联系我们
如有技术文章涉及侵权,请与本站管理员联系。