如何选择最合适的hadoop版本

发布时间: 2015-08-09 阅读数: 1752

现如今,hadoop已经成为企业处理大数据的必备武器。对于企业而言,根据自身的特性选择合适的hadoop版本却常常是一件很头痛的事情。企业前期往往要花费大量的时间精力,搞清楚hadoop不同版本、不同提供商之间的区别。从实现的核心功能上讲,三家主流的hadoop版本提供商:Hortonworks、Cloudera、MapR ,以及最近快速成长的Pivotal 之间并没有大的差异。但是根据企业自身的情况,这些版本在其他方面的优势劣势各不相同。

总体而言,在选择合适的hadoop版本时,需要考虑4个方面的内容。

1、性能

首先,之所以选择hadoop是因为在它在处理大数据时展现的高性能,如果使用Apache Spark流式处理引擎替代MapReduce,这样的能力会更胜一筹。但是,在特定情况下,不同版本的hadoop所展现的性能是并不相同。在特定的场景下,某些版本可以消耗更少的硬件的同时处理更大的数据并保持较高水平的性能。那么,如何去评价这些性能呢?

稳定的低延时

很多厂家在宣传自己的高性能时会强调低延时性。但这里其实是一个营销陷阱,该产品可能在大多数情况下保持低延时,但也会出现意外情况,而且这种意外无法预测。这种性能的波动有时是灾难性的。加入你要参加某个POC,那么一定要保证低延时的稳定性!

元数据的部署方式

这一点其实不用多说,目前这些成熟的hadoop版本的文件系统结构都是分布式的。对于Hadoop而言,文件系统的结构是决定性能的决定因素。灵活性、可扩展性越高的Hadoop版本都会将元数据存放到节点中,这会提升数十倍的性能。

2、可靠性

对于很多企业和商业模式而言,数据就是命脉。对于数据管理提供商而言,可靠性应该被摆在首要的位置。可靠性是区分版本的重要因素。可靠性包含两个方面,高可靠性和容灾能力。

高可靠性

很少有Hadoop的厂家能够保证99.999%的可靠性。衡量一个版本可靠性需要从以下六个指标上看:

  • 自我修复的能力
  • 无当机
  • 高容错率 -系统的容错能力可以通过管理员偏好设置来管理
  • 与硬件100%融合
  • 无需其他高性能扩展硬件
  • 易用
  • 数据保护能力

高级的分布式文件系统应当搭配快照恢复系统,这些快照系统应当捕捉正在读取的数据和未读取的数据。某些版本的Hadoop快照系统仅仅捕捉那些关闭的数据流,有时这会危及到数据的完整性。

容灾能力

镜像技术往往被应用于企业级Hadoop的容灾系统中。借助这一技术,系统可以自动的从灾难性的错误中恢复过来。

3、易管理性

现在Hadoop已经内置了友好的人机交互管理系统。用户也可以选择不同的管理员工具来优化Hadoop的管理能力。 在选择Hadoop时,应当选择那些内置了辅助管理,异常报告,作业调度和监控功能的版本。

4、数据获取能力

获取和存储数据仅仅是应用Hadoop的第一步。数据的安全性和易用性依赖于几个关键的功能和设定

  • 开放Hadoop文件系统的API
  • 文档读写的可移植性接口
  • 对关键资源的直接调控
  • 诸如Hive、Apache Flume的数据仓库工具

安全性是除了上述因素之外的另外一个重要指标。但是,由于提高安全性需要花费大量的时间和物力成本,所以安全性的特性一般被用户所忽略。

 

本文由邢代涛编译自4 Considerations When Choosing a Hadoop Distribution

分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 19674次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 13611次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 10975次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 9348次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 7820次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7757次阅读
热门课程

R语言初级课程

2015年02月20日发布 3102名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1626名学员

R语言数据分析入门

2016年05月10日发布 1469名学员

如何用R做数据预处理

2016年06月03日发布 1125名学员

全栈数据工程师养成攻略

2016年11月08日发布 977名学员

R语言大规模数据分析实战

2015年12月17日发布 933名学员
登录 注册