基于MapReduce对视频中的人数进行统计
65 views查阅了很多资料,发现很少有在MapReduce平台上处理视频的,本文对基于MapReduce的视频人头统计进行探讨
继续阅读博客内容主要关于于大数据、分布式计算、边缘计算及Python
查阅了很多资料,发现很少有在MapReduce平台上处理视频的,本文对基于MapReduce的视频人头统计进行探讨
继续阅读一个树莓派、两个树莓派、三个树莓派、四个树莓派,还有一个jeston nano。我已经拥有五台设备了,但是似乎这五台设备一直英雄无用武之地。突然想起有段时间k8s挺火的,但是我能用树莓派搭建一个k8s集群吗?
继续阅读在使用scrapy、selenium 和 chrome结合爬虫爬取网易云动态界面的时候发现有个问题?为什么通过webdriver获取到的page_source 里面都是js,不应该是已经渲染好的页面吗?说好的所见即所得呢?
问题出在哪呢?问题出在页面可能包含多个js文件,这些js文件生成了html代码,而且在生成过程中使用了下图所示的iframe这个东西,导致你的page_source都是js,那怎么把page_source里面的js转换成html呢?
Hive中,order by、sort by 和 distributed by 分别代表三种不同的排序方法,虽然都是排序,但是它们的功能是不一样的。
简单来说,`order by`的功能和在SQL中的功能是一样的,对每一条数据根据特定属性进行排序。而`sort by`则是在reduce内部对每个数据根据特定属性进行排序。`distributed by`则有点类似于mapreduce的分区,对于同一个属性字段的会交给同一个reduce。`cluster by`则就相当于对同一个字段同时进行`distributed by`和`sort by`。需要注意的是`distributed by`要放在`sort by`前面,因为前者运行在shuffle阶段,而后者运行在reduce处理阶段。
继续阅读## yarn资源管理界面监控日志无法访问
对于log无法访问的问题,原因在于在访问日志的时候进行了重定向,而重定向的网络地址不是直接的ip地址,而是我们配置的私有域名,此时我们需要在本机host文件中加上目标网络地址的ip地址解析
## /tmp/df* not in a consistant state
出现此种错误一般是namenode没有格式化,导致元数据信息目录没有创建
## can not resolve ns1
无法解析集群服务,应该是在配置proxy的时候最后的nameservice没有修改
> 保持更新
继续阅读如何实现自动的故障转移?通过zookeeper,zookeeper是分布式协调服务框架,它可以为我们实现自动的故障转移,但一个namenode的状态发生变化的时候,其他的namenode就会选举出一个leader自动进入active状态。这个功能不需要我们写代码了,hdfs本身已经包含了这项服务。不过我们首先要配置zookeeper服务,然后开启自动故障转移功能。
继续阅读当namenode不可用的时候,那么整个HDFS都会奔溃。怎么解决namenode的单点问题?使系统具有高可用的特性?其实在HDFS设计的时候就考虑到了单点问题,解决方案主要由两种:一种是通过分布式的日志管理,一种是通过传统的共享文件内存。
继续阅读对于hadoop集群的基本配置,最好的文档永远是官方文档。但是跟着官方文档配置,大多数人无法从功能角度去理解。以致在下一次配置的时候,我们还是要去看官方文档,如果我们从功能角度去理解的话,那我们在第二次配置的时候,就能胸有成竹了。
继续阅读