Python海量数据处理之_Hadoop(二)概念和原理
Python 海量数据处理之 _Hadoop(二)概念和原理
1. 说明
Hadoop 是个分布式的架构,它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了 Hadoop 的安装,在安装过程中会产生一些疑问,比如 NameNode 是什么东西?本篇就以问题&解答的方式介绍 Hadoop 的相关概念及其原理。
2. NameNode,DataNode,以及 Secondary NameNode
把 Hadoop 分为 HDFS 和 MapReduce。HDFS 为数据提供了存储,MapReduce 为数据提供了计算。
NameNode,DataNode 以及 Secondary NameNode 都是属于存储部分,NameNode 主要负责管理元信息,如文件名,目录结构,属性,数据块存储位置等等。DataNode 负责数据块的具体存取。SecondaryNameNode 是 NameNode 的辅助工具,有两个作用,一是镜像备份,二是日志与镜像的定期合并,注意:它并不是 NameNode 的备份。
3. ResourceManager 与 NodeManager
ResourceManager 和 NodeManager 属于计算部分,ResourceManager 负责集群中所有算力的统一管理和分配,NodeManager 是每台机器上的代理,负责容器管理,并监控它们的资源使用情况,以及向 ResourceManager 提供资源使用报告。
4. MapReduce 与 YARN
Hadoop 将 MapReduce 框架升级到 YARN(也叫 MapRecudeV2)。原来 MapReduce 分为 JobTracker 和 NodeTracker,分别用于分配集群中所有任务和管理单机任务;而 YARN 改为 ResourceManager 和 NodeManager,也分别针对主按和单机,但 YARN 对每个应用都建立了 ApplicationMaster,它可以分布在 ResourceManager 以外的机器上,从而缓解了主控的压力。
5. Master 与 slave
Master 和 salve 指的是集群中各台主机主控或从属的特性,即它们在 hadoop 中扮演的角色(每台主机就好比一个人),一个集群中只有一个 master(领导小组),它可以分布在一台或多台机器上(好比主管存储的领导和主管计算的领导可以同一个人,也可以是不同的人),
Salve(群众)可以有很多,slave 机器上主要部署 NodeManager 和 DataNode(作为群众干具体活,一个群众可以干一样或多样工作,全部工作由群众分担),而在 Master 上部署 NameNode 和 ResourceManager(作为领导分配任务),master 如有多余算力,也可部署 NodeManager 和 DataNode(领导也可以干点具体活)。
如果只有一台机器,可以把所有功能都让它实现,这就是伪分布式,如果机器多负荷大,可以把每种工作分配给专门的机器。需要注意的是管理的角色 NameNode 和 ResourceManager 只能各有一个。就好像一样事儿好几个领导同时管就乱了。
6. 集群中多台服务器如何配置
无论是 master 还是 slave 都需要安装 JDK 和 Hadoop,以及配置 ssh 及环境变量,但配置文件和启动方式不同;并且只在 master 上做格式化。
7. 程序如何读取数据
分布式文件系统,算力和存储都分布在多个机器上。NameNode 为数据存储提供统一的接口以便读写,具体在 core-site.xml 中设置。
在程序层面,通过 Hadoop 的数据流 (streaming) 进行流式处理,它有点像 linux 的管道机制,程序从标准输入 stdin 读入,写入标准输出 stdout(在处理过程中请尽量保持流式,不要一次 load 太多到内存)。相对来说它更适合处理像字符串一样的流式数据,而非大规律数据的统计。除了直接读数据流,Python 还提供封装工具,如 mrjob,dumbo,hadoopy,pydoop 等等,使读写更加方便。
8. 程序如何切分运算量
Map 可以开一个到多个,reduce 也可以开一个到多个,具体根据业务逻辑分配。
9. 数据挖掘可否分布计算
Mahout 是 Hadoop 家族中的成员,是基于一个 Hadoop 的机器学习和数据挖掘的分布式计算框架。
10. Hadoop 与 Spark
Hadoop 是分布式数据处理的低层次抽象,通用,强壮,且保守,它使用 HDFS 存储,支持复杂的大规模数据。
Spark 是一个新兴的大数据处理的引擎,是分布式大数据处理的高层次抽象。提供了除 map 和 reduce 之外更多的运算符,这些操作是通过一个称作弹性分布式数据集 (resilient distributed datasets, RDDs) 的分布式数据框架进行的。它主要使用内存存储,用于快速处理。
Hadoop 的 YARN 还可与 Spark 结合使用。
11. Hadoop 与 Zookeeper
在集群的管理中 Zookeeper 负责分布式系统的协调工作。不仅适用于 Hadoop 集群,在其他的集群中也常被用到,比如此前介绍过的实现矿机集群的 Zookeeper&Kafka。Zookeeper 主要解决处理分布式应用的“部分失败”问题(比如某个关链节点宕机了),使集群更加稳定地工作。