知行合一
Github
顺翔的技术驿站
顺翔的技术驿站
  • README
  • ABOUTME
  • Computer Science
    • 数据结构与算法
      • 位运算以及位图
      • 随机数
      • 递归
      • 经典排序算法
      • 经典查找算法
      • 数组和动态数组
      • 链表
      • 栈和队列
      • 树
      • 哈希表
    • 计算机网络
      • 物理层
      • 数据链路层
      • 网络层
        • TCP
      • 运输层
      • 应用层
      • HTTP
        • HTTPS的原理
        • DNS详解
        • file协议
        • 邮件协议
    • 设计模式
      • 单例模式
      • 建造者模式
      • 原型模式
      • 工厂模式
      • 享元模式
      • 代理模式
      • 装饰者模式
      • 桥接模式
      • 适配器模式
      • 外观模式
      • 组合模式
      • 事件驱动
      • 有限状态机
      • 备忘录模式
      • 模板方法模式
      • 策略模式
      • 迭代器模式
      • 命令模式
      • 解释器模式
    • 加密与解密
      • 数字证书原理
      • cfssl
  • Programming Language
    • 编程语言学习要素
    • Java
      • 集合
        • List
          • ArrayList
          • Vector
          • Stack
          • LinkedList
        • Iterator
        • Set
          • HashSet
          • TreeSet
        • Map
          • HashMap
          • HashTable
          • TreeMap
          • LinkedHashMap
      • 常用API
        • 日期时间处理
        • System
        • Random
        • Arrays
        • Scanner
        • 格式化输出
      • java特性
        • java5特性
        • java8特性
        • java9特性
        • java10特性
        • java11特性
      • 并发编程
        • 线程基础
        • 线程同步:synchronized及其原理
        • 线程同步: volatile
        • 锁机制
        • 锁的分类与对应的Java实现
        • JUC:同步辅助类
        • JUC: AtomicXXX
        • 线程池
        • ThreadLocal详解
      • 测试
        • 使用JMH进行基准测试
      • JVM
        • 强引用、软引用、弱引用、虚引用
        • jvm内存模型
        • jvm优化
        • GC算法与回收器
        • 静态绑定与动态绑定
      • ORM
        • Mybatis
          • IBatis常用操作
      • Web编程
        • Servlet详解(一)
        • Servlet详解(二):request和response对象
        • Servlet详解(三):会话技术与Cookie
        • JSP详解(一):页面构成、EL表达式
        • JSP详解(二):九大内置对象
        • JavaWeb的编码问题
        • Thymeleaf
      • Velocity
      • Java日志框架总结
      • Spring
        • SpringIOC
        • SpringMVC
        • SpringBoot源码
      • 其他
        • Apache Commons Lang使用总结
        • 使用FtpClient进行ftp操作
        • Java PDF操作总结
        • Java使用zip4j进行文件压缩
        • Java解析Excel总结
    • JVM Language
      • Groovy
      • Scala
    • Kotlin
      • 变量和常量
      • 数据类型
        • 基本数据类型
        • 容器类型
        • 函数类型
        • null和null安全
      • 流程控制
      • 包
      • 面向对象
    • Golang
      • 关键字与标识符
      • 变量和常量
      • 数据类型
      • 函数
      • 常用API
        • 时间日期处理
        • 字符串操作
        • 正则表达式
      • 控制语句
      • 包package
      • 面向对象
      • 错误处理
      • 命令行编程
        • Cobra
      • 文件操作
      • 测试
      • 并发编程
        • sync包详解
      • 数据格式与编码
        • 使用encoding包操作xml
        • 使用encoding包操作json
        • 使用magiconair操作properties
        • 使用go-ini操作ini
      • 反射
      • Build Tools
        • Go Module
        • Go Vendor
      • 日志框架
        • zap日志框架
      • Web编程
        • Gin
    • JavaScript
      • 数据类型
      • ECMAScript
        • ECMAScript6
      • NodeJS
    • TypeScript
      • 变量和常量
      • 数据类型
      • 函数
      • 面向对象
      • 泛型
      • Build Tools
        • tsc编译
        • 与webpack整合
    • Python
      • BuildTools
        • requirements.txt
        • Ananconda
    • Swift
      • 变量和常量
    • Script Language
      • Regex
      • BAT
      • Shell
    • Markup Language
      • Markdown
      • Yaml
  • Build Tools
    • CMake
    • Maven
      • 搭建Nexus私服
      • maven使用场景
    • Gradle
  • Version Control
    • Git
      • Git工作流
      • Git分支管理
      • Git Stash
      • Git Commit Message规范
      • .gitttributes文件
    • SVN
  • Distributed
    • 分布式基础理论
      • 互联网架构演变
      • 架构设计思想AKF拆分原则
      • CAP理论
      • BASE理论
    • 一致性
      • 一致性模型
      • 共识算法
        • Paxos
        • Raft
        • ZAB
      • 复制
        • 主从复制
        • Quorum机制
        • Nacos Distro协议
      • 缓存一致性
        • 双写一致性
        • 多级缓存一致性
    • 事务一致性
      • Seata
      • 本地消息表实现方案
      • 关于dpad的事务问题的分析
    • IO
    • RPC协议
    • 序列化
    • Session共享
    • 分布式协调
      • Zookeeper
        • zk集群4节点搭建
    • 服务治理
      • Dubbo分布式治理
    • 分布式ID
      • 分布式ID生成策略总结
    • 分布式锁
    • 应用服务器
      • Tomcat
    • Web服务器
      • Nginx
        • Nginx的基本配置
        • ab接口压力测试工具
        • nginx模块
        • 随机访问页面
        • 替换响应内容
        • 请求限制
        • 访问控制
        • 状态监测
        • nginx应用场景
        • 代理服务
        • 负载均衡
        • 缓存
        • 静态资源服务器和动静分离
        • 附录
      • Kong
    • 缓存中间件
      • Caffeine
      • memcached
      • Redis
        • Centos下安装Redis
        • RatHat下安装Redis
    • 数据库中间件
      • ShardingSphere
      • MyCat2
    • 消息中间件
      • Kafka
      • RocketMQ
  • Microservices
    • 服务发现
      • Nacos注册中心
      • Consul
    • 配置中心
      • Apollo
    • 消息总线
    • 客户端负载均衡
    • 熔断器
    • 服务网关
    • 链路追踪
      • Skywalking
  • Domain-Specific
    • Auth
      • 有关权限设计的思考
      • 认证方式
      • JWT
    • 任务调度
      • QuartzScheduler
      • Elastic-Job
      • XXL-Job
      • PowerJob
    • 工作流
      • BPM
      • Activiti
      • Flowable
    • 规则引擎
      • Drools
  • Architect
    • DDD领域驱动设计
      • 三层架构设计
      • 四层架构设计
    • Cola
    • 代码设计与代码重构
      • 重构改变既有代码设计
      • 枚举规范化
      • 接口幂等
      • 限流
      • 历史与版本
      • 逻辑删除和唯一索引
      • 业务对象设计
    • 单元测试
      • SpringBoot单元测试实践
    • 项目管理
    • APM
      • SkyWalking
      • Arthas
    • 性能优化
      • 接口性能优化
    • 系统设计
      • 流程中台
      • 短信中台
      • 权限中台
        • 智电运维平台组织架构改造二期
  • Database
    • Oracle
      • Docker下安装oracle11g
    • IBM DB2
    • Mysql
      • 安装Mysql
      • 用户与权限管理
      • MySQL的逻辑架构
      • 存储引擎
      • 索引详解
      • MySql的列类型
      • MySql中表和列的设计
      • MySql的SQL详解
      • 锁机制
      • 事务
      • Mysql函数总结
      • MySql存储过程详解
      • MySql触发器详解
      • Mysql视图详解
      • Mysql中Sql语句的执行顺序
      • 配置MySql主从和读写分离
      • MySql的备份策略
      • MySql分库分表解决方案
      • MySql优化总结
      • MySQL实战调优
        • schema与数据类型优化
    • Mongo
  • File System
    • README
    • HDFS
    • FastDFS
    • MinIO
  • Linux
    • 常用的Linux命令
    • vim
    • Linux磁盘管理
    • Linux系统编程
    • RedHat
      • rpm包管理器具体用法
    • Ubuntu
      • Ubuntu下录制屏幕并做成gif图片
      • Ubuntu20.05LiveServe版安装
  • DevOps
    • VM
      • 新建一个新的Linux虚拟机需要配置的东西
      • VMware桥接模式配置centos
      • VMwareFusion配置Nat静态IP
    • Ansible
    • Container
      • Docker
        • Dockerfile详解
        • DockerCompose详解
      • Containerd
    • Kubernetes
      • 安装k8s
        • 使用Minikube安装k8s
        • centos7.x下使用kubeadm安装k8s1.21
        • ubuntu20下使用kubeadm安装k8s1.21
        • centos7.x下使用二进制方式安装k8s1.20
        • 使用DockerDesktop安装K8s(适用M1芯片)
      • 切换容器引擎
      • 使用k8s部署项目的流程
      • 集群维护-备份升级排错
    • Gitlab
      • GitlabCI/CD
    • CI/CD
      • ArgoCD
  • Big-Data
    • Hadoop
    • MapReduce
    • HDFS
  • Front-End
    • Android
      • Log的使用、自定义Log工具类
      • Android倒计时功能实现
      • 解决ViewDrawableLeft左侧图片大小不可控的问题
      • AndroidSQLite基本用法
      • View的生命周期
      • 工具类
      • WebView详解
      • ViewTreeObserver类监听ViewTree
      • 在onCreate中获取控件的宽高等信息的几种方法
      • View的foreground属性
        • MaterialDesign
          • BottomNavigationBar
          • CardView
          • Elevation高度、shadows阴影、clipping裁剪、tint着色
          • TouchFeedbackRipple波纹动画
      • Volley完全解析——使用、源码
      • Android围住神经猫的实现
      • LookLook剖析,架构概述——MVP、Retrofit+RxJava
      • Android性能优化之渲染
    • Browser
      • 浏览器的工作原理
    • HTML
      • DOCTYPE标签、XHTML与HTML的区别
    • CSS
      • CSS的继承性、层叠性、权重
      • CSS浮动float详解(一):标准文档流
      • CSS浮动float详解(二):使用float
      • CSS浮动float详解(三):清除浮动方案
    • Tools Lib
      • JavaScript 文件下载解决方案-download.js
      • js-url 用于url的js开源库
      • jsuri 用于操作url的js开源库
      • window offset
    • React
      • 模块化和组件
      • 组件的三大核心属性
      • 事件处理
      • 表单数据收集
      • 生命周期
      • DOM的diff算法
      • 工程化
        • 脚手架create-react-app
        • 工程结构和模块化
      • 路由
  • Design
    • 产品设计
      • 交互设计
由 GitBook 提供支持
在本页
  • HDFS 基础架构
  • 块block详解
  • master/slave架构的优缺点
  • hdfs的文件权限验证
  • 元数据信息存储(FsImage 和 Edits)
  • 操作HDFS文件系统
  • 在浏览器管理界面查看文件
  • ls (查看指定路径下的所有文件)
  • mkdir (创建文件夹)
  • put(拷贝本地文件到hdfs)
  • moveFromLocal(移动本地文件到hdfs)
  • moveToLocal(移动hdfs文件到本地文件系统)
  • mv(hdfs内部文件移动)
  • cp(hdfs内部文件拷贝)
  • cat(查看文本文件)
  • rm(删除hdfs中的文件)
  • chmod(权限修改)
  • chowner(修改文件所属者)
  • 文件限额配置
  • 数量限额
  • 空间限额
  • 安全模式
  • 对HDFS进行基准测试
  • 写入速度测试
  • 读取速度测试
  • 清除测试数据

这有帮助吗?

在GitHub上编辑
  1. Big-Data

HDFS

上一页MapReduce下一页Android

最后更新于2年前

这有帮助吗?

Hadoop具有抽象文件系统的概念,Java抽象类 org.apache.hadoop.fs.FileSystem定义了Hadoop文件系统接口,HDFS是其其中一个实现。同时也具有其他实现类,比如file:///、WebHDFS、FTP、HAR等。

HDFS起源于Google的GFS论文(GFS,Mapreduce,BigTable为google的旧的三驾马车),发表于2003年,HDFS同GFS一样用于解决分布式存储问题,HDFS是GFS的克隆版。他的系统设计目标如下:

  • 硬件错误:集群很多时候由数量众多的廉价机组成,使得硬件错误成为常态

  • 数据流访问:所有应用以流的方式访问数据,设置之初便是为了用于批量的处理数据,而不是低延时的实时交互处理

  • 大数据集:典型的HDFS集群上面的一个文件是以G或者T数量级的,支持一个集群当中的文件数量达到千万数量级

  • 简单的相关模型:假定文件是一次写入,多次读取的操作

  • 移动计算比移动数据便宜:一个应用请求的计算,离它操作的数据越近,就越高效

  • 多种软硬件的可移植性

HDFS 基础架构

HDFS是一个分布式文件系统,所以其主要功能用于存储文件,他将大文件拆分存储到多个DataNode节点中,并通过NameNode保存元数据(目录树),根据这些元数据去多个DataNode中寻找目标数据。

观察上面的架构图:

  • NameNode 是一个中心服务器,主要负责

    • Namespace,负责管理文件系统命名空间

      • HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。

      • Namenode 负责维护文件系统的名字空间,任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。HDFS 会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

    • 负责HDFS客户端对文件的访问

    • Mate Ops, 负责文件元数据操作

      • 与文件内容相关的数据流不经过NameNode,只会询问NameNode此文件相关的DataNode,避免NameNode称为系统瓶颈

      • 元数据维护了文件与数据块的映射、数据块与DataNode的映射关系

    • Heartheaty:心跳机制,周期性的每个DataNode接收心跳信息和状态报告

      • 接收到心跳代表此DataNode正常工作

      • 返回的状态报告代表着这个DataNode上所有的数据列表

    • Balancing:负载均衡机制

      • 在存放文件时,根据全局情况做出放置决定

      • 读取文件时,NameNode会返回最近的副本,最近计算采用机架感知

    • Replication:根据心跳状态报告确定数据是否需要备份

  • DataNode负责处理文件内容的读写请求,并负责存储文件

    • 所有文件都是block块的方式存放在DataNode中

    • 向NameNode汇报存储状态

总结如下:

NameNode
DataNode

存储元数据

存储文件内容

存储在内存中

存储在磁盘中

保存文件、block、DataNode之间的映射关系

维护了block id 到 DataNode本地文件的映射关系

块block详解

HDFS 中的文件在物理上是分块存储(block)的,块的大小可以在hdfs-site.xml的dfs.block.size设置,单位为字节:

<property>
    <name>dfs.block.size</name>
    <value>块大小 以字节为单位</value>//只写数值就可以
</property>

block 的默认大小 hadoop2.x 版本中是 128M,1.x时为64M

抽象为块的优势如下:

  • 当文件大小大于磁盘时,可以将其拆分存储到多个磁盘中

  • 使用块抽象可以简化存储子系统

  • 块非常适合用于数据备份进而提供数据容错能力和可用性

  • 块最终仍然会将数据存放到本地磁盘中

**注意:**默认情况下,每个文件都会至少创建一个块,假设有一个300M的文件,将会被分为三个块,其中最后一个块只占 300 - 128 -128 = 44M空间。

block 缓存

通常DataNode从磁盘中读取块,但对于访问频繁的文件,其对应的块可能被显示的缓存在DataNode的内存中,以堆外块缓存的形式存在。默认情况下,一个块仅缓存在一个DataNode的内存中,当然可以针对每个文件配置DataNode的数量。作业调度器通过在缓存块的DataNode上运行任务,可以利用块缓存的优势提高读操作的性能。

例如: 连接(join)操作中使用的一个小的查询表就是块缓存的一个很好的候选。 用户或应用通过在缓存池中增加一个cache directive来告诉namenode需要缓存哪些文件及存多久。缓存池(cache pool)是一个拥有管理缓存权限和资源使用的管理性分组。

master/slave架构的优缺点

架构图中HDFS集群分为两个角色,NameNode(主)和多个DataNodes,这是典型的主从架构。

此架构的优点:

  • 适合大文件存储,支持TB、PB级的数据存储、并有副本策略

  • 可以构建在廉价的机器上,并有一定的容错与恢复机制

  • 支持流式数据访问、一次写入、多次读取最高效

缺点:

  • 不适合小文件存储

  • 不适合并发写入,不支持文件的随机修改

  • 不支持随机读等低延时的访问方式

hdfs的文件权限验证

hdfs的文件权限机制与linux系统的文件权限机制类似:

r:read   
w:write  
x:execute  # 权限x对于文件表示忽略,对于文件夹表示是否有权限访问其内容

如果linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS当中的owner就是zhangsan。此方式只可以尽可能防止文件误操作,无法防止恶意操作。

元数据信息存储(FsImage 和 Edits)

在使用NameNode单节点架构时,如图:

当NameNode只有一个时,所有的元数据信息会被保存到FsImage与Edits文件中,这两个文件合并起来就是完整的元数据信息。可以在 hdfs-site.xml中配置这两个文件的存储路径:

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas</value>
</property>
<property>
    <name>dfs.namenode.edits.dir</name>
    <value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits</value>
</property>

FSImage 与 Edits 是如何存储元数据的?

  • 客户端对hdfs进行写文件时,会首先将操作记录到edits文件中

  • edits被修改时,元数据也会相应的更新

  • 只有edits更新完毕后,客户端才会看到最新的信息

  • 当edits中的操作已经超过指定的容量(比如1GB) 或者 edits存活的时间已经达到了指定时间(比如1小时),此时就会触发SecondaryNameNode,他将会把这两个数据重新整合到fsimage中,并提供一个新的edits文件

  • 所以,fsimage是对NameNode元数据的镜像,一般称为检查点

SecondaryNameNode辅助管理fsimage与edits:

优势:

  • 如果存放到同一文件中,内容将会很大,每次都加载到内存中生成树状拓扑结构,将会相当消耗CPU

操作HDFS文件系统

HDFS既然是一个文件系统,那么我们就可以往这个文件系统中查看、添加、删除文件。

在浏览器管理界面查看文件

我们可以通过http://192.168.52.101:50070/explorer.html#/ 查看HDFS集群中存储的文件,如下图所示:

可以在输入框中输入路径,查看路径下的所有文件,其中

  • Permission代表文件的权限,此权限系统表现与linux文件权限相同

  • Owner 所属用户

  • Group 所属的用户组

  • Size 大小

  • Last Modified 上次修改时间

  • Replication 备份的数量

  • Block Size 此文件的块的大小

  • Name 文件/目录名称

ls (查看指定路径下的所有文件)

HDFS操作文件的命令与Linux很是相似:

Usage: hdfs dfs -ls [-R] <args>

# -R 代表递归显示所有文件
# args 代表要显示的路径
# return 0 代表成功,-1 代表失败

# 示例:
[root@node01 hadoop-2.6.0-cdh5.14.0]# hdfs dfs -ls /
Found 1 items
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp

# 递归遍历
[root@node01 hadoop-2.6.0-cdh5.14.0]# hdfs dfs -ls -R  /
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging/history
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging/history/done
drwxrwxrwt   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging/history/done_intermediate

lsr 命令等同于 ls -R ,但是此命令已经被弃用,不推荐使用

mkdir (创建文件夹)

Usage: hdfs dfs -mkdir [-p] <paths>

# -p 代表递归创建,不存在的父目录也会被创建

# 示例:
# 创建失败
[root@node01 hadoop-2.6.0-cdh5.14.0]# hdfs dfs -mkdir /user/hadoop/dir1
mkdir: `/user/hadoop/dir1': No such file or directory
# 递归创建
hdfs dfs -mkdir -p /user/hadoop/dir1

put(拷贝本地文件到hdfs)

Usage: hdfs dfs -put <localsrc> ... <dst>

# 示例
hdfs dfs -put ./test.sh /user/hadoop/hadoopfile
# 打开 /user/hadoop/ 目录,发现有一个 hadoopfile文件,内容与test.sh 相同

• hdfs dfs -put localfile /user/hadoop/hadoopfile
• hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir
• hdfs dfs -put localfile hdfs://nn.example.com/hadoop/hadoopfile
• hdfs dfs -put - hdfs://nn.example.com/hadoop/hadoopfile  # 从stdin读取文件

moveFromLocal(移动本地文件到hdfs)

Usage: hdfs dfs -moveFromLocal <localsrc> <dst>

# 与put类似,只不过不是拷贝,而是剪切

moveToLocal(移动hdfs文件到本地文件系统)

Usage: hdfs dfs -moveToLocal [-crc] <src> <dst>
# 暂未实现
moveToLocal: Option '-moveToLocal' is not implemented yet.

mv(hdfs内部文件移动)

Usage: hdfs dfs -mv URI [URI ...] <dest>

• hdfs dfs -mv /user/hadoop/file1 /user/hadoop/file2 # 将hdfs文件 file1更名为file2
• hdfs dfs -mv hdfs://nn.example.com/file1 hdfs://nn.example.com/file2 hdfs://nn.example.com/file3 hdfs://nn.example.com/dir1

cp(hdfs内部文件拷贝)

Usage: hdfs dfs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest>
# 复制文件夹/文件、可覆盖、可保留原有的权限信息

# -f 表示如果目录路径存在,则覆盖
# -p 表示保留文件属性(topax),包含(timestamps, ownership, permission, ACL, XAttr),如果未指定,只会保留 timestamps, ownership, permission

# 示例
hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2
hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

cat(查看文本文件)

Usage: hdfs dfs -cat URI [URI ...]

• hdfs dfs -cat hdfs://nn1.example.com/file1 hdfs://nn2.example.com/file2
• hdfs dfs -cat file:///file3 /user/hadoop/file4

appendToFile(hdfs文件追加)

Usage: hdfs dfs -appendToFile <localsrc> ... <dst>
# 追加一个或者多个文件到hdfs指定文件中.也可以从命令行读取输入.

• hdfs dfs -appendToFile localfile /user/hadoop/hadoopfile
• hdfs dfs -appendToFile localfile1 localfile2 /user/hadoop/hadoopfile
• hdfs dfs -appendToFile localfile hdfs://nn.example.com/hadoop/hadoopfile
• hdfs dfs -appendToFile - hdfs://nn.example.com/hadoop/hadoopfile Reads the input from stdin.

rm(删除hdfs中的文件)

hdfs默认拥有回收站,被删除的文件会被保存到回收站中,默认会存储七天

Usage: hdfs dfs -rm [-f] [-r|-R] [-skipTrash] URI [URI ...]

# -f 不提示
# -r/-R 递归删除
# -skipTrash 不保存到回收站中

rmr 和 rm -R 作用相同,已经弃用

chmod(权限修改)

Usage: hdfs dfs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI ...]

# 权限修改,同linux相同

chowner(修改文件所属者)

Usage: hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

# 示例
hdfs  dfs  -chown  -R hadoop:hadoop  /xxx

文件限额配置

hdfs文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量。

数量限额

hdfs dfs -mkdir -p /user/root/lisi     #创建hdfs文件夹
hdfs dfsadmin -setQuota 2 lisi      # 给该文件夹下面设置最多上传两个文件,上传文件,发现只能上传一个文件
hdfs dfsadmin -clrQuota /user/root/lisi    # 清除文件数量限制

空间限额

hdfs dfsadmin -setSpaceQuota 500m /user/root/lisi   # 限制空间大小500M
hdfs dfs -put  大文件 /user/root/lisi

安全模式

NameNode主节点启动时,HDFS会先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动离开安全模式。

hdfs集群刚启动的时候,默认30S钟的时间是出于安全期的

处于安全模式时,文件系统只接受读取数据、而不接受删除修改等操作。我们可以通过 safemode 退出或者启动安全模式:

hdfs  dfsadmin  -safemode [enter | leave | get | wait]

# leave 离开安全模式
[root@node01 ~]# hdfs  dfsadmin  -safemode  leave
# get 获取安全模式状态
[root@node01 ~]# hdfs  dfsadmin  -safemode  get
Safe mode is OFF

对HDFS进行基准测试

生产环境中,hadoop环境搭建完成后,需要先进行压力测试,针对读取速度和写入速度进行测试。

写入速度测试

# 向hdfs中写入数据,10个文件,每个文件10M
hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO  -write -nrFiles 10 -fileSize 10MB

# 执行完毕后,将会在所在路径下生成文件 TestDFSIO_results.log
----- TestDFSIO ----- : write
           Date & time: Sat May 18 16:06:21 CST 2019
       Number of files: 10  
Total MBytes processed: 100.0 
     Throughput mb/sec: 4.204860819106887
Average IO rate mb/sec: 6.121540546417236 
 IO rate std deviation: 4.396359897943029
    Test exec time sec: 35.935 
# 还可以使用如下命令查看结果
[root@node01 ~]# hdfs dfs -text /benchmarks/TestDFSIO/io_write/part-00000
f:rate  61215.406
f:sqrate        568012.4
l:size  104857600
l:tasks 10
l:time  23782
You have new mail in /var/spool/mail/root

读取速度测试

hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO -read -nrFiles 10 -fileSize 10MB

# 执行结果,仍然会追加到TestDFSIO_results.log中
----- TestDFSIO ----- : read
           Date & time: Sat May 18 16:12:34 CST 2019
       Number of files: 10
Total MBytes processed: 100.0 
     Throughput mb/sec: 83.75209380234506 
Average IO rate mb/sec: 113.53912353515625
 IO rate std deviation: 65.83300550915573
    Test exec time sec: 25.083
    
# 还可以使用命令查看
[root@node01 ~]# hdfs dfs -text /benchmarks/TestDFSIO/io_read/part-00000
f:rate  1135391.2
f:sqrate        1.72251168E8
l:size  104857600
l:tasks 10
l:time  1194
You have new mail in /var/spool/mail/root

清除测试数据

清除没用的大量的测试数据。

hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO -clean
hdfs基础架构
1558185636146
1558152268057