`

Hadoop 统计一个目录的文件大小

    博客分类:
  • hive
阅读更多

Hadoop 统计一个目录的文件大小

 

hive的查询注意事项以及优化总结 .

 http://www.cnblogs.com/xd502djj/p/3799432.html

Hadoop Hive基础sql语法

http://www.cnblogs.com/HondaHsu/p/4346354.html

map和reduce 个数的设定 (Hive优化)经典

http://blog.sina.com.cn/s/blog_9f48885501017dua.html

du

使用方法:hadoop fs -du URI [URI …]

指定目录时,显示该目录中所有文件的大小,

而当只指定一个文件时,只显示此文件的大小。
示例:
hadoop fs -du /user/hadoop/dir1
返回值:
成功返回0,失败返回-1。

dus

使用方法:hadoop fs -dus <args>

显示文件的大小

 
hadoop fs -du hdfs://ns1/user/mart_coo/app.db/app_store_flat_stock_flow_check_wmserp/dt=2016-01-31;
897167  hdfs://ns1/user/mart_coo/app.db/app_store_flat_stock_flow_check_wmserp/dt=2016-01-31/000000_0.lzo
893708  hdfs://ns1/user/mart_coo/app.db/app_store_flat_stock_flow_check_wmserp/dt=2016-01-31/000001_0.lzo
 
 
分享到:
评论

相关推荐

    大数据分析-网站日志数据文件(Hadoop部署分析资料)

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始...

    遍历hfds列出所有空目录和文件及大小.rar

    java代码实现遍历hdfs所有文件夹及文件,列出空目录以dirnull标示,列出所有文件及大小。可以直接导入到开发环境,hadoop版本为2.7.2,

    hadoop-hdfs-fsimage-exporter:将Hadoop HDFS内容统计信息导出到Prometheus

    文件大小和大小分布(可选) 块数 文件复制(总体/每个用户摘要) 导出器使用解析FSImage。 这种方法的优点是 快速(2.6 GB FSImage〜50s) 不会给HDFS NameNode增加额外的负担(没有NameNode查询,您可以在第二...

    实验2常用的HDFS操作.doc

    (5)给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息 (6)提供一个HDFS内的文件的路径,对该文件进行创建和删除...

    Apache Hudi代表 Hadoop 实现大数据的对象存储的Upserts、Deletes 和 Incrementals

    5. 使用统计信息管理文件大小和布局 6. 行和列数据的异步压缩 7. 用于跟踪世系的时间线元数据 8. 通过群集优化数据湖布局 Hudi supports three types of queries: 1. 快照查询 - 使用列式存储和基于行的存储(例如 ...

    大数据技术原理与应用.docx

    8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是() [单选题] * A.hadoop dfs -mkdir /test/dir B.hadoop fs -mkdir -p /test/dir(正确答案) C.hdfs fs -...

    hudi-0.12.0.src.gz

    支持快速Upsert以及可插拔的索引。 支持原子方式操作,且支持回滚。 写入和插件操作之间的快照隔离。...使用统计信息管理文件大小和布局。 行和列的异步压缩。 具有时间线来追踪元数据血统。 通过聚类优化数据集。

    第七章-《大数据导论》大数据处理平台.pdf

    数据复制多份存放不同节点以增加可用性和可靠性 特点:高容错性 + 高扩展性 Apache Hadoop Apache软件基金会下面的一个开源项目 一个分布式系统基础框架 HDFS: Hadoop分布式文件系统,负责数据存储 MapReduce:一种...

    2017最新大数据架构师精英课程

    69_开启和关闭一个进程 70_hadoop常用的命令和关闭防火墙) Q" A0 B3 M8 s3 ? 71_hadoop存储为何是128M 72_hadoop的存储问题 73_hadoop的高可用 74_配置hadoop临时目录 75_hadoop的hdfs的jar包 76_hadoop的存储问题+ ...

    大数据-Inceptor技术白皮书.pdf

    HDFS仍然是一个高可扩展的分布式文件系统,是大数据软件栈的基 石。Map/Reduce在处理PB级别的数据时,仍然具有高容错性、高吞吐量的特点。但由于复杂的工作流通常需 要多个阶段的Map/Reduce任务,而Map/Reduce的输入...

    java源码生成jar包-hudi:大数据的更新、删除和增量处理

    使用统计信息管理文件大小和布局 行和列数据的异步压缩 用于跟踪沿袭的时间线元数据 通过聚类优化数据湖布局 Hudi 支持三种类型的查询: 快照查询- 使用列式和基于行的存储(例如 +)的组合,提供对实时数据的快照...

    hudi:大数据的增量和增量处理

    使用统计信息管理文件大小,布局 行和列数据的异步压缩 时间轴元数据以跟踪血统 通过聚类优化数据湖布局 Hudi支持三种查询类型: 快照查询-使用基于列和基于行的存储(例如 + )的组合,提供实时数据的快照查询。 ...

    hudi-branch-ci

    使用统计信息管理文件大小,布局 行和列数据的异步压缩 时间轴元数据以跟踪血统 通过聚类优化数据湖布局 Hudi支持三种查询类型: 快照查询-使用基于列和基于行的存储(例如 + )的组合,提供实时数据的快照查询。 ...

    hudi-mirror

    使用统计信息管理文件大小,布局 行和列数据的异步压缩 时间轴元数据以跟踪血统 通过聚类优化数据湖布局 Hudi支持三种查询类型: 快照查询-使用基于列和基于行的存储(例如 + )的组合,提供实时数据的快照查询。 ...

    大数据的概念.docx

    "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际...

Global site tag (gtag.js) - Google Analytics