月份:2019年2月

Hive: 解析order by、sort by、distributed by 、cluster by区别

205 views

Hive中,order by、sort by 和 distributed by 分别代表三种不同的排序方法,虽然都是排序,但是它们的功能是不一样的。

简单来说,`order by`的功能和在SQL中的功能是一样的,对每一条数据根据特定属性进行排序。而`sort by`则是在reduce内部对每个数据根据特定属性进行排序。`distributed by`则有点类似于mapreduce的分区,对于同一个属性字段的会交给同一个reduce。`cluster by`则就相当于对同一个字段同时进行`distributed by`和`sort by`。需要注意的是`distributed by`要放在`sort by`前面,因为前者运行在shuffle阶段,而后者运行在reduce处理阶段。

继续阅读

Hadoop常见报错及解决办法

13 views

## yarn资源管理界面监控日志无法访问
对于log无法访问的问题,原因在于在访问日志的时候进行了重定向,而重定向的网络地址不是直接的ip地址,而是我们配置的私有域名,此时我们需要在本机host文件中加上目标网络地址的ip地址解析

## /tmp/df* not in a consistant state
出现此种错误一般是namenode没有格式化,导致元数据信息目录没有创建

## can not resolve ns1
无法解析集群服务,应该是在配置proxy的时候最后的nameservice没有修改

> 保持更新

继续阅读

通过分布式文件日志系统: hdf配置高可用(自动故障转移)

14 views

如何实现自动的故障转移?通过zookeeper,zookeeper是分布式协调服务框架,它可以为我们实现自动的故障转移,但一个namenode的状态发生变化的时候,其他的namenode就会选举出一个leader自动进入active状态。这个功能不需要我们写代码了,hdfs本身已经包含了这项服务。不过我们首先要配置zookeeper服务,然后开启自动故障转移功能。

继续阅读