HDFS是如何设计框的？

发布时间：2021-06-04 11:31:58 所属栏目：大数据来源：互联网

导读：前言 Hadoop到目前为止发展已经有10余年，版本经过无数次的更新迭代，目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。一、Hadoop 简介 Hadoop版本刚出来的时候是为了解决两个问题：一是海量数据如何存储的问题，一个是海量数

前言

Hadoop到目前为止发展已经有10余年，版本经过无数次的更新迭代，目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。

一、Hadoop 简介

Hadoop版本刚出来的时候是为了解决两个问题：一是海量数据如何存储的问题，一个是海量数据如何计算的问题。Hadoop的核心设计就是HDFS和 Mapreduce.HDFS解决了海量数据如何存储的问题， Mapreduce解决了海量数据如何计算的问题。HDFS的全称：Hadoop Distributed File System。

二、分布式文件系统

图片 HDFS其实就可以理解为一个分布式文件系统，可以看如图1所示有4个服务器是不是都有他自己的文件系统都可以进行存储数据，假设每个服务器的存储空间存储10G的数据。假设数据量很小的时候存储10G的数据还是ok的当数据量大于服务器的存储空间时是不是单个服务器就没法存储了。我们是不是可以在服务器中部署一个Hadoop这样就能构建出一个集群(超级大电脑)。这样就存储 4*10=40G的数据量，这样我们面向用户时是不是只有一台超级大的电脑相当于一个分布式文件系统。

HDFS是一个主从的架构、主节点只有一个NemeNode。从节点有多个DataNode。

三、HDFS 架构

图片假设我们这里有5台服务器每台服务器都部署上Hadoop，我们随便选择一台服务器部署上NameNode剩下服务器部署上DataNode。

客户端上传文件时假设文件大小为129MHDFS默认切分的大小为128M这时就会产生出2个blkNameNode去通知DataNode上传文件(这里有一定的策略)，我们就假设就将这几个文件分别存储在4个服务器上。为什们要进行分别存储在，假设DataNode服务器有一天突然挂掉了我们是不是还可通过DataNode4或2和3进行读取数据，这样是不是就防止数据丢失。

NameNode

管理元数据信息(文件目录树)：文件与Block块，Block块与DataNode主机关系

NameNode为快速响应用户操作，所以把元数据信息加载到内存里

DataNode

存储数据，把上传的数据划分固定大小文件块(Block)在Hadoop2.73之前是64M之后改为了128M

为了保证数据安全，每个文件默认都是三个副本

SecondaryNamenode

周期性的到NameNode节点拉取Edtis和fsimage文件，将这两个文件加入到内存进行然后将这两个文件加入到内存中进行合并产生新的fsimage发送给NameNode。

（编辑：阜新站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

善用企业数据策略无惧	技术迷途者指南我有问
如何采用大数据技术帮	如何使云原生运维化繁