博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HDFS小文件优化方法
阅读量:3936 次
发布时间:2019-05-23

本文共 293 字,大约阅读时间需要 1 分钟。

1 HDFS小文件弊端

HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间另一方面就是索引文件过大使得索引速度变慢。

2 HDFS小文件解决方案

小文件的优化无非以下几种方式:

(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。

(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。

(3)在MapReduce处理时,可采用CombineTextInputFormat提高效率。 

3.HDFS小文件解决方案

 

转载地址:http://zbuwi.baihongyu.com/

你可能感兴趣的文章
Python字符串操作之扫描、翻转、截取、输出对齐
查看>>
Python字符串操作之字符串搜索与替换
查看>>
Python字符串操作之字符串分割与组合
查看>>
Python函数操作集锦之字符串测试、判断函数
查看>>
Python字符串操作集锦之字符串映射表
查看>>
Python字符串操作集锦之字符串编码解码函数
查看>>
Python字符串类型转换函数
查看>>
Python有用的命令
查看>>
Python条件语句
查看>>
Python eval()函数
查看>>
Linux vi编辑器命令详解
查看>>
Linux常用命令之man/mv/shutdown/history
查看>>
Linux rz和sz命令详解
查看>>
Python 函数之函数定义、调用、传参
查看>>
Python 函数之参数、局部变量
查看>>
Python模块
查看>>
Python 包
查看>>
Python 异常处理
查看>>
Python 集合set
查看>>
Linux 系统状况之查看用户
查看>>