觉得有帮助的请多多支持博主,点赞关注哦~
- 数据量越来越大在一个操作系统管辖的范围内存不下,那么就分配到更多的操作系统管理的磁盘中但是不方便管理和维護,so需要一种系统来管理多台机器上的文件分布式文件管理系统.
- HDFS的设计适合一次写入,多次读出的场景且不支持文件的随机修改。
适匼用来做数据分析前的存储介质
- 高容错性,具有副本机制同一数据块分别存储在不同副本上,某一副本的数据块出现丢失都能自动修复。
- 分布式存储类似于横向扩容,存储的数据量非常大(文件数量、数据规模)
- hdfs具有很强的兼容性,支持的数据类型非常多
- 成本低廉,使用廉价的PC机就可以
- 不适合低延迟数据的读写,对于大数据读写时具有一定的延迟性
- 不适合数据量小文件多(大量的小文件)的情況,因为文件的特性信息每个文件都会记录到内存,所以会浪费内存
- 不能并发写入,不支持随机修改只支持追加修改。
Client客户端节点(市场招生办):
- 与Namenode通信作用是获取文件的位置信息
- 与DataNode交互,实现数据的读取与写入
- 管理数据块信息和副本信息
- 接收并处理客户端的请求
- 数據存储节点保存和检索Block
- 一个集群可以有多个数据节点
- 辅助NN将内存中元数据信息持久化