知行合一
Github
顺翔的技术驿站
顺翔的技术驿站
  • README
  • ABOUTME
  • Computer Science
    • 数据结构与算法
      • 位运算以及位图
      • 随机数
      • 递归
      • 经典排序算法
      • 经典查找算法
      • 数组和动态数组
      • 链表
      • 栈和队列
      • 树
      • 哈希表
    • 计算机网络
      • 物理层
      • 数据链路层
      • 网络层
        • TCP
      • 运输层
      • 应用层
      • HTTP
        • HTTPS的原理
        • DNS详解
        • file协议
        • 邮件协议
    • 设计模式
      • 单例模式
      • 建造者模式
      • 原型模式
      • 工厂模式
      • 享元模式
      • 代理模式
      • 装饰者模式
      • 桥接模式
      • 适配器模式
      • 外观模式
      • 组合模式
      • 事件驱动
      • 有限状态机
      • 备忘录模式
      • 模板方法模式
      • 策略模式
      • 迭代器模式
      • 命令模式
      • 解释器模式
    • 加密与解密
      • 数字证书原理
      • cfssl
  • Programming Language
    • 编程语言学习要素
    • Java
      • 集合
        • List
          • ArrayList
          • Vector
          • Stack
          • LinkedList
        • Iterator
        • Set
          • HashSet
          • TreeSet
        • Map
          • HashMap
          • HashTable
          • TreeMap
          • LinkedHashMap
      • 常用API
        • 日期时间处理
        • System
        • Random
        • Arrays
        • Scanner
        • 格式化输出
      • java特性
        • java5特性
        • java8特性
        • java9特性
        • java10特性
        • java11特性
      • 并发编程
        • 线程基础
        • 线程同步:synchronized及其原理
        • 线程同步: volatile
        • 锁机制
        • 锁的分类与对应的Java实现
        • JUC:同步辅助类
        • JUC: AtomicXXX
        • 线程池
        • ThreadLocal详解
      • 测试
        • 使用JMH进行基准测试
      • JVM
        • 强引用、软引用、弱引用、虚引用
        • jvm内存模型
        • jvm优化
        • GC算法与回收器
        • 静态绑定与动态绑定
      • ORM
        • Mybatis
          • IBatis常用操作
      • Web编程
        • Servlet详解(一)
        • Servlet详解(二):request和response对象
        • Servlet详解(三):会话技术与Cookie
        • JSP详解(一):页面构成、EL表达式
        • JSP详解(二):九大内置对象
        • JavaWeb的编码问题
        • Thymeleaf
      • Velocity
      • Java日志框架总结
      • Spring
        • SpringIOC
        • SpringMVC
        • SpringBoot源码
      • 其他
        • Apache Commons Lang使用总结
        • 使用FtpClient进行ftp操作
        • Java PDF操作总结
        • Java使用zip4j进行文件压缩
        • Java解析Excel总结
    • JVM Language
      • Groovy
      • Scala
    • Kotlin
      • 变量和常量
      • 数据类型
        • 基本数据类型
        • 容器类型
        • 函数类型
        • null和null安全
      • 流程控制
      • 包
      • 面向对象
    • Golang
      • 关键字与标识符
      • 变量和常量
      • 数据类型
      • 函数
      • 常用API
        • 时间日期处理
        • 字符串操作
        • 正则表达式
      • 控制语句
      • 包package
      • 面向对象
      • 错误处理
      • 命令行编程
        • Cobra
      • 文件操作
      • 测试
      • 并发编程
        • sync包详解
      • 数据格式与编码
        • 使用encoding包操作xml
        • 使用encoding包操作json
        • 使用magiconair操作properties
        • 使用go-ini操作ini
      • 反射
      • Build Tools
        • Go Module
        • Go Vendor
      • 日志框架
        • zap日志框架
      • Web编程
        • Gin
    • JavaScript
      • 数据类型
      • ECMAScript
        • ECMAScript6
      • NodeJS
    • TypeScript
      • 变量和常量
      • 数据类型
      • 函数
      • 面向对象
      • 泛型
      • Build Tools
        • tsc编译
        • 与webpack整合
    • Python
      • BuildTools
        • requirements.txt
        • Ananconda
    • Swift
      • 变量和常量
    • Script Language
      • Regex
      • BAT
      • Shell
    • Markup Language
      • Markdown
      • Yaml
  • Build Tools
    • CMake
    • Maven
      • 搭建Nexus私服
      • maven使用场景
    • Gradle
  • Version Control
    • Git
      • Git工作流
      • Git分支管理
      • Git Stash
      • Git Commit Message规范
      • .gitttributes文件
    • SVN
  • Distributed
    • 分布式基础理论
      • 互联网架构演变
      • 架构设计思想AKF拆分原则
      • CAP理论
      • BASE理论
    • 一致性
      • 一致性模型
      • 共识算法
        • Paxos
        • Raft
        • ZAB
      • 复制
        • 主从复制
        • Quorum机制
        • Nacos Distro协议
      • 缓存一致性
        • 双写一致性
        • 多级缓存一致性
    • 事务一致性
      • Seata
      • 本地消息表实现方案
      • 关于dpad的事务问题的分析
    • IO
    • RPC协议
    • 序列化
    • Session共享
    • 分布式协调
      • Zookeeper
        • zk集群4节点搭建
    • 服务治理
      • Dubbo分布式治理
    • 分布式ID
      • 分布式ID生成策略总结
    • 分布式锁
    • 应用服务器
      • Tomcat
    • Web服务器
      • Nginx
        • Nginx的基本配置
        • ab接口压力测试工具
        • nginx模块
        • 随机访问页面
        • 替换响应内容
        • 请求限制
        • 访问控制
        • 状态监测
        • nginx应用场景
        • 代理服务
        • 负载均衡
        • 缓存
        • 静态资源服务器和动静分离
        • 附录
      • Kong
    • 缓存中间件
      • Caffeine
      • memcached
      • Redis
        • Centos下安装Redis
        • RatHat下安装Redis
    • 数据库中间件
      • ShardingSphere
      • MyCat2
    • 消息中间件
      • Kafka
      • RocketMQ
  • Microservices
    • 服务发现
      • Nacos注册中心
      • Consul
    • 配置中心
      • Apollo
    • 消息总线
    • 客户端负载均衡
    • 熔断器
    • 服务网关
    • 链路追踪
      • Skywalking
  • Domain-Specific
    • Auth
      • 有关权限设计的思考
      • 认证方式
      • JWT
    • 任务调度
      • QuartzScheduler
      • Elastic-Job
      • XXL-Job
      • PowerJob
    • 工作流
      • BPM
      • Activiti
      • Flowable
    • 规则引擎
      • Drools
  • Architect
    • DDD领域驱动设计
      • 三层架构设计
      • 四层架构设计
    • Cola
    • 代码设计与代码重构
      • 重构改变既有代码设计
      • 枚举规范化
      • 接口幂等
      • 限流
      • 历史与版本
      • 逻辑删除和唯一索引
      • 业务对象设计
    • 单元测试
      • SpringBoot单元测试实践
    • 项目管理
    • APM
      • SkyWalking
      • Arthas
    • 性能优化
      • 接口性能优化
    • 系统设计
      • 流程中台
      • 短信中台
      • 权限中台
        • 智电运维平台组织架构改造二期
  • Database
    • Oracle
      • Docker下安装oracle11g
    • IBM DB2
    • Mysql
      • 安装Mysql
      • 用户与权限管理
      • MySQL的逻辑架构
      • 存储引擎
      • 索引详解
      • MySql的列类型
      • MySql中表和列的设计
      • MySql的SQL详解
      • 锁机制
      • 事务
      • Mysql函数总结
      • MySql存储过程详解
      • MySql触发器详解
      • Mysql视图详解
      • Mysql中Sql语句的执行顺序
      • 配置MySql主从和读写分离
      • MySql的备份策略
      • MySql分库分表解决方案
      • MySql优化总结
      • MySQL实战调优
        • schema与数据类型优化
    • Mongo
  • File System
    • README
    • HDFS
    • FastDFS
    • MinIO
  • Linux
    • 常用的Linux命令
    • vim
    • Linux磁盘管理
    • Linux系统编程
    • RedHat
      • rpm包管理器具体用法
    • Ubuntu
      • Ubuntu下录制屏幕并做成gif图片
      • Ubuntu20.05LiveServe版安装
  • DevOps
    • VM
      • 新建一个新的Linux虚拟机需要配置的东西
      • VMware桥接模式配置centos
      • VMwareFusion配置Nat静态IP
    • Ansible
    • Container
      • Docker
        • Dockerfile详解
        • DockerCompose详解
      • Containerd
    • Kubernetes
      • 安装k8s
        • 使用Minikube安装k8s
        • centos7.x下使用kubeadm安装k8s1.21
        • ubuntu20下使用kubeadm安装k8s1.21
        • centos7.x下使用二进制方式安装k8s1.20
        • 使用DockerDesktop安装K8s(适用M1芯片)
      • 切换容器引擎
      • 使用k8s部署项目的流程
      • 集群维护-备份升级排错
    • Gitlab
      • GitlabCI/CD
    • CI/CD
      • ArgoCD
  • Big-Data
    • Hadoop
    • MapReduce
    • HDFS
  • Front-End
    • Android
      • Log的使用、自定义Log工具类
      • Android倒计时功能实现
      • 解决ViewDrawableLeft左侧图片大小不可控的问题
      • AndroidSQLite基本用法
      • View的生命周期
      • 工具类
      • WebView详解
      • ViewTreeObserver类监听ViewTree
      • 在onCreate中获取控件的宽高等信息的几种方法
      • View的foreground属性
        • MaterialDesign
          • BottomNavigationBar
          • CardView
          • Elevation高度、shadows阴影、clipping裁剪、tint着色
          • TouchFeedbackRipple波纹动画
      • Volley完全解析——使用、源码
      • Android围住神经猫的实现
      • LookLook剖析,架构概述——MVP、Retrofit+RxJava
      • Android性能优化之渲染
    • Browser
      • 浏览器的工作原理
    • HTML
      • DOCTYPE标签、XHTML与HTML的区别
    • CSS
      • CSS的继承性、层叠性、权重
      • CSS浮动float详解(一):标准文档流
      • CSS浮动float详解(二):使用float
      • CSS浮动float详解(三):清除浮动方案
    • Tools Lib
      • JavaScript 文件下载解决方案-download.js
      • js-url 用于url的js开源库
      • jsuri 用于操作url的js开源库
      • window offset
    • React
      • 模块化和组件
      • 组件的三大核心属性
      • 事件处理
      • 表单数据收集
      • 生命周期
      • DOM的diff算法
      • 工程化
        • 脚手架create-react-app
        • 工程结构和模块化
      • 路由
  • Design
    • 产品设计
      • 交互设计
由 GitBook 提供支持
在本页
  • Hadoop 的介绍与起源
  • Hadoop 三大发行版
  • Apache 免费开源版本
  • hortonWorks 免费开源版本
  • ClouderaManager
  • Hadoop 的历史版本及架构
  • 1.x版本架构模型
  • 2.x版本架构模型
  • Hadoop安装
  • 下载Hadoop
  • 启动/关闭hadoop
  • 查看浏览器界面
  • 附录
  • 参考

这有帮助吗?

在GitHub上编辑
  1. Big-Data

Hadoop

上一页ArgoCD下一页MapReduce

最后更新于2年前

这有帮助吗?

Hadoop 的介绍与起源

讲到Hadoop起源,就不得不提Hadoop之父Doug Cutting:

上面就是Doug Cutting。Cutting于1985年毕业于斯坦福大学,第一份工作在Xerox做实习生。Xerox的工作让他在搜索引擎技术的知识有了很大提高。他花了四年的时间搞研发,这四年中,他阅读了大量的论文,同时,自己也发表了很多论文,用Cutting自己的 话说——“我的研究生是在Xerox读的。”尽管Xerox让Cutting积累了不少技术知识,但他却认为,自己当时搞的这些研究只是纸上谈兵,没有人试验过这些理论的可实践性。于是,他决定勇敢地迈出这一步,让搜索技术可以为更多人所用。1997年底,Cutting开始以每周两天的时间投入,在家里试着用Java把这个想法变成现实,不久之后,Lucene诞生了。作为第一个提供全文文本搜索的开源函数库,Lucene的伟大自不必多言。

之后,Cutting再接再厉,在 Lucene的基础上将开源的思想继续深化。2004年,Cutting和同为程序员出身的Mike Cafarella决定开发一款可以代替当时的主流搜索产品的开源搜索引擎,这个项目被命名为Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

幸运的是,在2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案:

  • 分布式文件系统(GFS),即Google File System,可用于处理海量网页的存储

  • 分布式计算框架MAPREDUCE,它运行在GFS之上,负责分布式大规模数据;可用于处理海量网页的索引计算问题

Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目 (同年,cloudera公司成立),迎来了它的快速发展期。

  • 从狭义上来说,hadoop就是单独指代hadoop这个软件,

  • 从广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

总的来说,Hadoop就是一个大数据以及分布式计算的解决方案。

Hadoop 三大发行版

同Linux相同,Hadoop也有很多不同的发行版:

Apache 免费开源版本

  • 优点:拥有全世界的开源贡献者,代码更新迭代版本比较快

  • 缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用

下载地址:http://archive.apache.org/dist/hadoop/

hortonWorks 免费开源版本

ClouderaManager

cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境推荐使用, 通常简称为CDH

Hadoop 的历史版本及架构

Hadoop至今已经经历了3个大版本,分别是0.x、1.x、2.x:

  • 0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本

  • 1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等

  • 2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

1.x版本架构模型

如上图,Hadoop1.x架构主要由两个主要部分组成:

  • 文件系统核心模块(HDFS) :假设有100T的文件,单机无法存储这么大的文件数量,所以就需要将数据分散在多台机器上,通过HDFS存储获取文件,并且不用关心数据具体的存储方式

  • 数据计算核心模块(MapReduce):单机无法从如此大的数据中找出某个关键字,所以需要分布式计算

Hadoop = HDFS(分布式文件系统) + MapReduce(分布式计算)

存储是大数据技术的基础(HDFS),分布式计算是大数据应用的解决方案(MapReduce)

HDFS

HDFS 用于解决大数据存储的问题,它由多个节点组成,并分为三种节点角色:

  • NameNode:集群当中的主节点,主要用于管理集群当中的各种源数据,通过元数据可以所引到指定DataNode,类似目录的作用

  • secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

  • DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

MapReduce

用于分布式计算,分为两个角色

  • JobTracker:接收用户的计算请求任务,并分配任务给从节点

  • TaskTracker:负责执行主节点JobTracker分配的任务

上述架构缺点很明显,NameNode与JobTracker存在中心化的问题,当发生单节点故障问题,整个集群都将失效。

2.x版本架构模型

2.x版本架构仍然由两个部分组成:

  • HDFS文件存储系统

  • Yarn资源调度系统

其中HDFS没有发生明显变化,而MapReduce则被替换为了Yarn。Yarn主要由以下几个部分组成:

  • ResourceManager:主要用于接收用户提交的计算任务并且分配资源(CPU、内存、磁盘、网络),不再进行任务分配。当接收到到用户提交的计算任务时,ResourceManager将会在某个NodeManager上启动一个ApplicationMaster的进程,此进程将会负责将任务分配到其他NodeManager上。

  • NodeManager:负责执行主节点 ApplicationMaster分配的任务

  • AppMaster: 由ResourceManager启动,负责资源申请、任务调配

在Hadoop1.x中,存在HDFS于MapReduce单点故障的问题,所以,2.x为了解决此问题,提供了堆NameNode以及ResourceManager的主备策略,从而实现高可用。根据自己的业务员情况,来决定自己的架构是否需要添加高可用的支持,共分为四种情况:

  • NameNode与ResourceManager单节点架构模型

  • NameNode单节点与ResourceManager高可用架构模型

  • NameNode高可用与ResourceManager单节点架构模型

  • NameNode与ResourceManager高可用架构模型

1. NameNode与ResourceManager单节点架构模型

不过多赘述

2. NameNode单节点与ResourceManager-HA架构模型

ResourceManager高可用方案如下:

  • 添加ResouceManager备份节点,采用主备策略进行故障转移

  • 使用Zookeeper作为注册中心,负责主备切换

3. NameNode-HA与ResourceManager单节点架构模型

  • 如果NameNode进行了高可用,那么secondaryNameNode角色就会被journalNode替代

  • NameNode采用主备策略,主即Active启用状态,备即时StandBy后备状态

  • journalNode主要用于文件系统元数据信息管理; 他会同步元数据信息,从而保证主备NameNode中数据的一致性

4. NameNode-HA与ResourceManager-HA架构模型

Hadoop安装

下载Hadoop

这里以2.7.5为示例,解压后可以看到Apache Hadoop的目录结构如下:

启动/关闭hadoop

如果配置了 etc/hadoop/slaves 和 ssh 免密登录,则可以使用程序脚本启动所有Hadoop 两个集群的相关进程,在主节点所设定的机器上执行。这些脚本位于sbin目录下:

# 启动
cd /export/servers/hadoop-2.6.0-cdh5.14.0/
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

# 关闭
sbin/stop-dfs.sh
sbin/stop-yarn.sh
sbin/mr-jobhistory-daemon.sh stop historyserver

查看浏览器界面

  • HDFS集群访问管理页面:http://192.168.52.101:50070/dfshealth.html#tab-overview

  • yarn集群访问管理页面:http://192.168.52.101:8088/cluster

  • jobhistory访问地址:http://192.168.52.100:19888/jobhistory

附录

参考

hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件

官方网站:hadoop.apache.org
官方网站: hortonworks.com
HDF
官方网站: cloudera.com
ApacheHadoop下载地址
Hadoop之父Doug Cutting
img
img
img
1558179015244
1556887386722
1556889231268
1556885758043
1556890018116
1556890396347
1556890536766
1556957815251