Hadoop 统计一个目录的文件大小 - - ITeye博客

`

wspiderw

浏览: 20040 次
性别:
来自: 北京

最近访客更多访客>>

megamind2012

wangning1125

pingbutianxia

坏孩子的天空

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Hadoop 统计一个目录的文件大小

博客分类：

hive

阅读更多

Hadoop 统计一个目录的文件大小

hive的查询注意事项以及优化总结 .

http://www.cnblogs.com/xd502djj/p/3799432.html

Hadoop Hive基础sql语法

http://www.cnblogs.com/HondaHsu/p/4346354.html

map和reduce 个数的设定（Hive优化）经典

http://blog.sina.com.cn/s/blog_9f48885501017dua.html

du

使用方法：hadoop fs -du URI [URI …]

指定目录时，显示该目录中所有文件的大小，

而当只指定一个文件时，只显示此文件的大小。
示例：
hadoop fs -du /user/hadoop/dir1
返回值：
成功返回0，失败返回-1。

dus

使用方法：hadoop fs -dus <args>

显示文件的大小

hadoop fs -du hdfs://ns1/user/mart_coo/app.db/app_store_flat_stock_flow_check_wmserp/dt=2016-01-31;

897167 hdfs://ns1/user/mart_coo/app.db/app_store_flat_stock_flow_check_wmserp/dt=2016-01-31/000000_0.lzo

893708 hdfs://ns1/user/mart_coo/app.db/app_store_flat_stock_flow_check_wmserp/dt=2016-01-31/000001_0.lzo

分享到：

ETL | hive优化之-控制hive任务中的map数和redu ...

2016-02-03 13:38
浏览 1663
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据分析-网站日志数据文件（Hadoop部署分析资料）: 至此，我们通过Python网络爬虫手段进行数据抓取，将我们网站数据（2013-05-30,2013-05-31）保存为两个日志文件，由于文件大小超出我们一般的分析工具处理的范围，故借助Hadoop来完成本次的实践。使用python对原始...

遍历hfds列出所有空目录和文件及大小.rar: java代码实现遍历hdfs所有文件夹及文件，列出空目录以dirnull标示，列出所有文件及大小。可以直接导入到开发环境，hadoop版本为2.7.2，

hadoop-hdfs-fsimage-exporter：将Hadoop HDFS内容统计信息导出到Prometheus: 文件大小和大小分布（可选）块数文件复制（总体/每个用户摘要）导出器使用解析FSImage。这种方法的优点是快速（2.6 GB FSImage〜50s）不会给HDFS NameNode增加额外的负担（没有NameNode查询，您可以在第二...

实验2常用的HDFS操作.doc: （5）给定HDFS中某一个目录，输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息（6）提供一个HDFS内的文件的路径，对该文件进行创建和删除...

Apache Hudi代表 Hadoop 实现大数据的对象存储的Upserts、Deletes 和 Incrementals: 5. 使用统计信息管理文件大小和布局 6. 行和列数据的异步压缩 7. 用于跟踪世系的时间线元数据 8. 通过群集优化数据湖布局 Hudi supports three types of queries: 1. 快照查询 - 使用列式存储和基于行的存储（例如 ...

大数据技术原理与应用.docx: 8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir，正确的shell命令是（） [单选题] * A.hadoop dfs -mkdir /test/dir B.hadoop fs -mkdir -p /test/dir(正确答案) C.hdfs fs -...

hudi-0.12.0.src.gz: 支持快速Upsert以及可插拔的索引。支持原子方式操作，且支持回滚。写入和插件操作之间的快照隔离。...使用统计信息管理文件大小和布局。行和列的异步压缩。具有时间线来追踪元数据血统。通过聚类优化数据集。

第七章-《大数据导论》大数据处理平台.pdf: 数据复制多份存放不同节点以增加可用性和可靠性特点：高容错性 + 高扩展性 Apache Hadoop Apache软件基金会下面的一个开源项目一个分布式系统基础框架 HDFS： Hadoop分布式文件系统，负责数据存储 MapReduce：一种...

2017最新大数据架构师精英课程: 69_开启和关闭一个进程 70_hadoop常用的命令和关闭防火墙) Q" A0 B3 M8 s3 ? 71_hadoop存储为何是128M 72_hadoop的存储问题 73_hadoop的高可用 74_配置hadoop临时目录 75_hadoop的hdfs的jar包 76_hadoop的存储问题+ ...

大数据-Inceptor技术白皮书.pdf: HDFS仍然是一个高可扩展的分布式文件系统，是大数据软件栈的基石。Map/Reduce在处理PB级别的数据时，仍然具有高容错性、高吞吐量的特点。但由于复杂的工作流通常需要多个阶段的Map/Reduce任务，而Map/Reduce的输入...

java源码生成jar包-hudi:大数据的更新、删除和增量处理: 使用统计信息管理文件大小和布局行和列数据的异步压缩用于跟踪沿袭的时间线元数据通过聚类优化数据湖布局 Hudi 支持三种类型的查询：快照查询- 使用列式和基于行的存储（例如 +）的组合，提供对实时数据的快照...

hudi：大数据的增量和增量处理: 使用统计信息管理文件大小，布局行和列数据的异步压缩时间轴元数据以跟踪血统通过聚类优化数据湖布局 Hudi支持三种查询类型：快照查询-使用基于列和基于行的存储（例如 + ）的组合，提供实时数据的快照查询。 ...

hudi-branch-ci: 使用统计信息管理文件大小，布局行和列数据的异步压缩时间轴元数据以跟踪血统通过聚类优化数据湖布局 Hudi支持三种查询类型：快照查询-使用基于列和基于行的存储（例如 + ）的组合，提供实时数据的快照查询。 ...

hudi-mirror: 使用统计信息管理文件大小，布局行和列数据的异步压缩时间轴元数据以跟踪血统通过聚类优化数据湖布局 Hudi支持三种查询类型：快照查询-使用基于列和基于行的存储（例如 + ）的组合，提供实时数据的快照查询。 ...

大数据的概念.docx: "大数据"是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大，指代大型数据集，一般在10TB?规模左右，但在实际...

Global site tag (gtag.js) - Google Analytics