HDFS

Hadoop具有抽象文件系统的概念，Java抽象类 org.apache.hadoop.fs.FileSystem定义了Hadoop文件系统接口，HDFS是其其中一个实现。同时也具有其他实现类，比如file:///、WebHDFS、FTP、HAR等。

HDFS起源于Google的GFS论文（GFS，Mapreduce，BigTable为google的旧的三驾马车），发表于2003年，HDFS同GFS一样用于解决分布式存储问题，HDFS是GFS的克隆版。他的系统设计目标如下：

硬件错误：集群很多时候由数量众多的廉价机组成，使得硬件错误成为常态
数据流访问：所有应用以流的方式访问数据，设置之初便是为了用于批量的处理数据，而不是低延时的实时交互处理
大数据集：典型的HDFS集群上面的一个文件是以G或者T数量级的，支持一个集群当中的文件数量达到千万数量级
简单的相关模型：假定文件是一次写入，多次读取的操作
移动计算比移动数据便宜：一个应用请求的计算，离它操作的数据越近，就越高效
多种软硬件的可移植性

HDFS 基础架构

HDFS是一个分布式文件系统，所以其主要功能用于存储文件，他将大文件拆分存储到多个DataNode节点中，并通过NameNode保存元数据（目录树），根据这些元数据去多个DataNode中寻找目标数据。

观察上面的架构图：

NameNode 是一个中心服务器，主要负责
- Namespace，负责管理文件系统命名空间
  - HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。
  - Namenode 负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。HDFS 会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。
- 负责HDFS客户端对文件的访问
- Mate Ops，负责文件元数据操作
  - 与文件内容相关的数据流不经过NameNode，只会询问NameNode此文件相关的DataNode，避免NameNode称为系统瓶颈
  - 元数据维护了文件与数据块的映射、数据块与DataNode的映射关系
- Heartheaty：心跳机制，周期性的每个DataNode接收心跳信息和状态报告
  - 接收到心跳代表此DataNode正常工作
  - 返回的状态报告代表着这个DataNode上所有的数据列表
- Balancing：负载均衡机制
  - 在存放文件时，根据全局情况做出放置决定
  - 读取文件时，NameNode会返回最近的副本，最近计算采用机架感知
- Replication：根据心跳状态报告确定数据是否需要备份
DataNode负责处理文件内容的读写请求，并负责存储文件
- 所有文件都是block块的方式存放在DataNode中
- 向NameNode汇报存储状态

总结如下：

NameNode

DataNode

存储元数据

存储文件内容

存储在内存中

存储在磁盘中

保存文件、block、DataNode之间的映射关系

维护了block id 到 DataNode本地文件的映射关系

块block详解

HDFS 中的文件在物理上是分块存储（block）的，块的大小可以在hdfs-site.xml的dfs.block.size设置，单位为字节：

<property>
    <name>dfs.block.size</name>
    <value>块大小 以字节为单位</value>//只写数值就可以
</property>

block 的默认大小 hadoop2.x 版本中是 128M，1.x时为64M

抽象为块的优势如下：

当文件大小大于磁盘时，可以将其拆分存储到多个磁盘中
使用块抽象可以简化存储子系统
块非常适合用于数据备份进而提供数据容错能力和可用性
块最终仍然会将数据存放到本地磁盘中

**注意：**默认情况下，每个文件都会至少创建一个块，假设有一个300M的文件，将会被分为三个块，其中最后一个块只占 300 - 128 -128 = 44M空间。

block 缓存

通常DataNode从磁盘中读取块，但对于访问频繁的文件，其对应的块可能被显示的缓存在DataNode的内存中，以堆外块缓存的形式存在。默认情况下，一个块仅缓存在一个DataNode的内存中，当然可以针对每个文件配置DataNode的数量。作业调度器通过在缓存块的DataNode上运行任务，可以利用块缓存的优势提高读操作的性能。

例如：连接（join）操作中使用的一个小的查询表就是块缓存的一个很好的候选。用户或应用通过在缓存池中增加一个cache directive来告诉namenode需要缓存哪些文件及存多久。缓存池（cache pool）是一个拥有管理缓存权限和资源使用的管理性分组。

master/slave架构的优缺点

架构图中HDFS集群分为两个角色，NameNode（主）和多个DataNodes，这是典型的主从架构。

此架构的优点：

适合大文件存储，支持TB、PB级的数据存储、并有副本策略
可以构建在廉价的机器上，并有一定的容错与恢复机制
支持流式数据访问、一次写入、多次读取最高效

缺点：

不适合小文件存储
不适合并发写入，不支持文件的随机修改
不支持随机读等低延时的访问方式

hdfs的文件权限验证

hdfs的文件权限机制与linux系统的文件权限机制类似:

r:read   
w:write  
x:execute  # 权限x对于文件表示忽略，对于文件夹表示是否有权限访问其内容

如果linux系统用户zhangsan使用hadoop命令创建一个文件，那么这个文件在HDFS当中的owner就是zhangsan。此方式只可以尽可能防止文件误操作，无法防止恶意操作。

元数据信息存储(FsImage 和 Edits)

在使用NameNode单节点架构时，如图：

当NameNode只有一个时，所有的元数据信息会被保存到FsImage与Edits文件中，这两个文件合并起来就是完整的元数据信息。可以在 hdfs-site.xml中配置这两个文件的存储路径：

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas</value>
</property>
<property>
    <name>dfs.namenode.edits.dir</name>
    <value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits</value>
</property>

FSImage 与 Edits 是如何存储元数据的？

客户端对hdfs进行写文件时，会首先将操作记录到edits文件中
edits被修改时，元数据也会相应的更新
只有edits更新完毕后，客户端才会看到最新的信息
当edits中的操作已经超过指定的容量(比如1GB) 或者 edits存活的时间已经达到了指定时间(比如1小时)，此时就会触发SecondaryNameNode，他将会把这两个数据重新整合到fsimage中，并提供一个新的edits文件
所以，fsimage是对NameNode元数据的镜像，一般称为检查点

SecondaryNameNode辅助管理fsimage与edits：

优势:

如果存放到同一文件中，内容将会很大，每次都加载到内存中生成树状拓扑结构，将会相当消耗CPU

操作HDFS文件系统

HDFS既然是一个文件系统，那么我们就可以往这个文件系统中查看、添加、删除文件。

在浏览器管理界面查看文件

我们可以通过http://192.168.52.101:50070/explorer.html#/ 查看HDFS集群中存储的文件，如下图所示：

可以在输入框中输入路径，查看路径下的所有文件，其中

Permission代表文件的权限，此权限系统表现与linux文件权限相同
Owner 所属用户
Group 所属的用户组
Size 大小
Last Modified 上次修改时间
Replication 备份的数量
Block Size 此文件的块的大小
Name 文件/目录名称

ls (查看指定路径下的所有文件)

HDFS操作文件的命令与Linux很是相似：

Usage: hdfs dfs -ls [-R] <args>

# -R 代表递归显示所有文件
# args 代表要显示的路径
# return 0 代表成功，-1 代表失败

# 示例：
[root@node01 hadoop-2.6.0-cdh5.14.0]# hdfs dfs -ls /
Found 1 items
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp

# 递归遍历
[root@node01 hadoop-2.6.0-cdh5.14.0]# hdfs dfs -ls -R  /
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging/history
drwxrwx---   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging/history/done
drwxrwxrwt   - root supergroup          0 2019-05-18 11:14 /tmp/hadoop-yarn/staging/history/done_intermediate

lsr 命令等同于 ls -R ，但是此命令已经被弃用，不推荐使用

mkdir (创建文件夹)

Usage: hdfs dfs -mkdir [-p] <paths>

# -p 代表递归创建，不存在的父目录也会被创建

# 示例：
# 创建失败
[root@node01 hadoop-2.6.0-cdh5.14.0]# hdfs dfs -mkdir /user/hadoop/dir1
mkdir: `/user/hadoop/dir1': No such file or directory
# 递归创建
hdfs dfs -mkdir -p /user/hadoop/dir1

put(拷贝本地文件到hdfs)

Usage: hdfs dfs -put <localsrc> ... <dst>

# 示例
hdfs dfs -put ./test.sh /user/hadoop/hadoopfile
# 打开 /user/hadoop/ 目录，发现有一个 hadoopfile文件，内容与test.sh 相同

• hdfs dfs -put localfile /user/hadoop/hadoopfile
• hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir
• hdfs dfs -put localfile hdfs://nn.example.com/hadoop/hadoopfile
• hdfs dfs -put - hdfs://nn.example.com/hadoop/hadoopfile  # 从stdin读取文件

moveFromLocal(移动本地文件到hdfs)

Usage: hdfs dfs -moveFromLocal <localsrc> <dst>

# 与put类似，只不过不是拷贝，而是剪切

moveToLocal(移动hdfs文件到本地文件系统)

Usage: hdfs dfs -moveToLocal [-crc] <src> <dst>
# 暂未实现
moveToLocal: Option '-moveToLocal' is not implemented yet.

mv(hdfs内部文件移动)

Usage: hdfs dfs -mv URI [URI ...] <dest>

• hdfs dfs -mv /user/hadoop/file1 /user/hadoop/file2 # 将hdfs文件 file1更名为file2
• hdfs dfs -mv hdfs://nn.example.com/file1 hdfs://nn.example.com/file2 hdfs://nn.example.com/file3 hdfs://nn.example.com/dir1

cp(hdfs内部文件拷贝)

Usage: hdfs dfs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest>
# 复制文件夹/文件、可覆盖、可保留原有的权限信息

# -f 表示如果目录路径存在，则覆盖
# -p 表示保留文件属性（topax），包含(timestamps, ownership, permission, ACL, XAttr)，如果未指定，只会保留 timestamps, ownership, permission

# 示例
hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2
hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

cat(查看文本文件)

Usage: hdfs dfs -cat URI [URI ...]

• hdfs dfs -cat hdfs://nn1.example.com/file1 hdfs://nn2.example.com/file2
• hdfs dfs -cat file:///file3 /user/hadoop/file4

appendToFile(hdfs文件追加)

Usage: hdfs dfs -appendToFile <localsrc> ... <dst>
# 追加一个或者多个文件到hdfs指定文件中.也可以从命令行读取输入.

• hdfs dfs -appendToFile localfile /user/hadoop/hadoopfile
• hdfs dfs -appendToFile localfile1 localfile2 /user/hadoop/hadoopfile
• hdfs dfs -appendToFile localfile hdfs://nn.example.com/hadoop/hadoopfile
• hdfs dfs -appendToFile - hdfs://nn.example.com/hadoop/hadoopfile Reads the input from stdin.

rm(删除hdfs中的文件)

hdfs默认拥有回收站，被删除的文件会被保存到回收站中，默认会存储七天

Usage: hdfs dfs -rm [-f] [-r|-R] [-skipTrash] URI [URI ...]

# -f 不提示
# -r/-R 递归删除
# -skipTrash 不保存到回收站中

rmr 和 rm -R 作用相同，已经弃用

chmod(权限修改)

Usage: hdfs dfs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI ...]

# 权限修改，同linux相同

chowner(修改文件所属者)

Usage: hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

# 示例
hdfs  dfs  -chown  -R hadoop:hadoop  /xxx

文件限额配置

hdfs文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量，以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量。

数量限额

hdfs dfs -mkdir -p /user/root/lisi     #创建hdfs文件夹
hdfs dfsadmin -setQuota 2 lisi      # 给该文件夹下面设置最多上传两个文件，上传文件，发现只能上传一个文件
hdfs dfsadmin -clrQuota /user/root/lisi    # 清除文件数量限制

空间限额

hdfs dfsadmin -setSpaceQuota 500m /user/root/lisi   # 限制空间大小500M
hdfs dfs -put  大文件 /user/root/lisi

安全模式

NameNode主节点启动时，HDFS会先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，当整个系统达到安全标准时，HDFS自动离开安全模式。

hdfs集群刚启动的时候，默认30S钟的时间是出于安全期的

处于安全模式时，文件系统只接受读取数据、而不接受删除修改等操作。我们可以通过 safemode 退出或者启动安全模式：

hdfs  dfsadmin  -safemode [enter | leave | get | wait]

# leave 离开安全模式
[root@node01 ~]# hdfs  dfsadmin  -safemode  leave
# get 获取安全模式状态
[root@node01 ~]# hdfs  dfsadmin  -safemode  get
Safe mode is OFF

对HDFS进行基准测试

生产环境中，hadoop环境搭建完成后，需要先进行压力测试，针对读取速度和写入速度进行测试。

写入速度测试

# 向hdfs中写入数据，10个文件，每个文件10M
hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO  -write -nrFiles 10 -fileSize 10MB

# 执行完毕后，将会在所在路径下生成文件 TestDFSIO_results.log
----- TestDFSIO ----- : write
           Date & time: Sat May 18 16:06:21 CST 2019
       Number of files: 10  
Total MBytes processed: 100.0 
     Throughput mb/sec: 4.204860819106887
Average IO rate mb/sec: 6.121540546417236 
 IO rate std deviation: 4.396359897943029
    Test exec time sec: 35.935 
# 还可以使用如下命令查看结果
[root@node01 ~]# hdfs dfs -text /benchmarks/TestDFSIO/io_write/part-00000
f:rate  61215.406
f:sqrate        568012.4
l:size  104857600
l:tasks 10
l:time  23782
You have new mail in /var/spool/mail/root

读取速度测试

hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO -read -nrFiles 10 -fileSize 10MB

# 执行结果，仍然会追加到TestDFSIO_results.log中
----- TestDFSIO ----- : read
           Date & time: Sat May 18 16:12:34 CST 2019
       Number of files: 10
Total MBytes processed: 100.0 
     Throughput mb/sec: 83.75209380234506 
Average IO rate mb/sec: 113.53912353515625
 IO rate std deviation: 65.83300550915573
    Test exec time sec: 25.083
    
# 还可以使用命令查看
[root@node01 ~]# hdfs dfs -text /benchmarks/TestDFSIO/io_read/part-00000
f:rate  1135391.2
f:sqrate        1.72251168E8
l:size  104857600
l:tasks 10
l:time  1194
You have new mail in /var/spool/mail/root

清除测试数据

清除没用的大量的测试数据。

hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO -clean

上一页MapReduce 下一页Android

最后更新于1年前

这有帮助吗？

硬件错误：集群很多时候由数量众多的廉价机组成，使得硬件错误成为常态
数据流访问：所有应用以流的方式访问数据，设置之初便是为了用于批量的处理数据，而不是低延时的实时交互处理
大数据集：典型的HDFS集群上面的一个文件是以G或者T数量级的，支持一个集群当中的文件数量达到千万数量级
简单的相关模型：假定文件是一次写入，多次读取的操作
移动计算比移动数据便宜：一个应用请求的计算，离它操作的数据越近，就越高效
多种软硬件的可移植性