一道hivehive 面试题题

Hive 最常见的几个hive 面试题题

  使用order by會引发全局排序;

  sort by的排序发生在每个reduce里order by和sort by之间的不同点是前者保证在全局进行排序,而后者仅保证在每个reduce内排序如果有超过1个reduce,sort by鈳能有部分结果有序

注意:它也许是混乱的作为单独列排序对于sort by和cluster by。不同点在于cluster by的分区列和sort by有多重reducereduce内的分区数据时一致的。 

会自动負载均衡小文件合并成大文件:表连接操作,使用 UDF 或 UDAF 函数: 

hive 面试题题有点多过几天再来更新


Hadoop新节点上线如何操作?

DataNode 节点查看 NameNode 的监控页面看是否有新增加的节点请描述mapReduce中排序发生的几个阶段??

计算前做输入分片调整例如合并小文件,那么就会有5 个map 任务將执行而且每个map 执行的数据大小不均,这个也是mapreduce 优化计算的一个关键点Mapping:就是程序员编写好的map 函数了,因此map 函数效率相对好控制而且┅般map

区别:TextInputformat将每一行在文件中的起始偏移量作为 key,每一行的内容作为value默认以 或回车键作为一行记录。KeyValueTextInputFormat 适合处理输入数据的每一行是两列并用 tab 分离的形式。

简述hadoop的调度器?

Capacity schedular:计算能力调度器,选择占用最小、优先级高的先执行依此类推

如何杀死一个job??

Hive中的内部表外部表,分区表、桶表有什么区别和作用

内部表:数据存储在Hive的数据仓库目录下,删除表时除了删除元数据,还会删除实际表文件外部表:数据并不存储在Hive的数据仓库目录下,删除表时只是删除元数据,并不删除实际表文件分区表:跟RDMS的分区概念类似,将一張表的数据按照分区规则分成多个目录存储这样可以通过指定分区来提高查询速度。桶表:在表或分区的基础上按某一列的值将记录進行分桶存放,即分文件存放也就是将大表变成小表的意思,这样涉及到Join操作时,可以在桶与桶间关联即可大大减小Join的数据量,提高执行效率

需求:求出每个User截止当月总的流量

先按user月份分组求出每个月的traffic


我要回帖

更多关于 hive 面试题 的文章

 

随机推荐