HDFS介绍 作者:马育民 • 2021-02-12 11:06 • 阅读:10284 部分内容整理自官网文档,详见 [链接](http://hadoop.apache.org/docs/r3.0.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html "链接") # 介绍 HDFS(Hadoop Distributed File System),hadoop分布式文件系统。 与windows的 **NTFS** 文件系统类似,HDFS 是一个文件系统,用于存储文件,通过 **目录树** 来 **定位文件**; HDFS是 **分布式** 的,由 多台服务器联合起来实现功能,每台服务器有各自的角色。 ### 为什么提出 HDFS 随着数据量越来越大,一台计算机 **无法管理** 所有的数据,就需要更多的计算机协同管理 为了便于 **管理** 和 **维护**,就需要 可管理多台计算机文件的系统,这就是 **分布式文件系统**。 HDFS 只是 分布式文件管理系统中的 一种 ### 优点 - 高容错性 - 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 - 某一个副本丢失以后,它可以自动恢复 - 适合大数据 - 数据大小:能够处理 TB、PB 级别的数据 - 文件数量:能够处理百万规模以上的文件数量 - 可构建在廉价机器上。通过多副本机制,提高可靠性。 ### 缺点 - 不适合低延时数据访问,比如毫秒级的存储数据 - 无法高效的对大量小文件进行存储 - 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的; - 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。 - **不支持并发写入、文件随机修改** - 一个文件只能有一个写,不允许多个线程同时写; - 仅支持数据追加(append),**不支持文件的随机修改** ### 应用场景 - **适合一次写入,多次读取** - **不支持文件的修改**,如:转账流水记录,电商订单记录,农业各个传感器数据 - 数据流式访问,一次可读取很多数据 - 适合用来做 **数据分析** ### 不适合应用场景 小文件 频繁任意修改,修改 word、excel 文件 低延迟处理 原文出处:http://malaoshi.top/show_1IXZvb0kK2R.html