zqrx.net
当前位置:首页 >> 为什么要用hADoop >>

为什么要用hADoop

感觉现在各个公司使用Hadoop的方式都不一样,主要我觉得有两种吧.第一种是long running cluster形式,比如Yahoo,不要小看这个好像已经没什么存在感的公司,Yahoo可是Hadoop的元老之一.这种就是建立一个Data Center,然后有几个

大量:这个大家都知道,想百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来.多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等.实时:大数据需要快速的,实时的进行处理.如果说对时间要求低,那弄几个机器,对小数据进行处理,等个十天半月的出来结果,这样也没有什么意义了.不确定: 数据是存在真伪的,各种各样的数据,有的有用,有的没用.很难辨析.hadoop还有一点好处,就是省钱.框架开源的,免费的,服务器也不用特别牛X的.省钱才是硬道理.

Hadoop 是一个大数据处理平台,由google 开发,Hadoop 是当前相较于其他大数据平台而言,优点明显,应对当下数据挖掘的首选平台

数据量小就不要用hadoop了,oracle足矣.如果 数据量慢慢累积而业务规定不能删除,日积月累,数据量增加,就需要使用hadoop了,因为它是横向扩展,而oracle总会有瓶颈.

Hadoop的创始人是Doug Cutting, 同时也是著名的基于Java的检索引擎库Apache Lucene的创始人.Hadoop本来是用于著名的开源搜索引擎Apache Nutch,而Nutch本身是基于Lucene的,而且也是Lucene的一个子项目.因此Hadoop基于Java就很理所当然了.

mahout 和 hadoop没有啥关系,非得说关系的话,你得弄清二者是干啥的mahout是一个机器学习算法库,人家是做一些经典的机器学习的算法实现的;hadoop是一个开源的分布式的数据处理引擎(HadoopV1来说,是MapReduce),人家很多时候是做大规模数据处理的;所以,Mahout上的一些算法支持用mapreduce的编程模型实现,所以就可以运行在Hadoop平台上;这样说你就可以明白了吧,二者不是一个层级上的东西,所发挥的作用也是不一样的,而且你运行的实例的确也没有用到Hadoop

elasticsearch只是一个搜索框架,仅此而已. hadoop/spark是计算框架/大数据运行环境,根本不可相提并论.

VMware可以在个人本地一台笔记本机器上同时运行二个或更多Windows、DOS、Linux系统.与“多启动”系统相比,VMWare采用了完全不同的概念.多启动系统在一个时刻只能运行一个系统,在系统切换时需要重新启动机器.VMWare是真正“同时”运行,多个操作系统在主系统的平台上,就象标准Windows应用程序那样切换.而且每个操作系统你都可以进行虚拟的分区、配置而不影响真实硬盘的数据,你甚至可以通过网卡将几台虚拟机用网卡连接为一个局域网,极其方便.安装在VMware操作系统性能上比直接安装在硬盘上的系统低不少,因此,比较适合学习和测试.

数据处理量达到一定规模的时候,网络和磁盘IO才是处理速度的瓶颈所在,不同语言的编译效率完全可以忽略不计, 另外Hadoop创始人之前做的Lucene也是用java做的, 并大获成功, 所以他可能继续选择用java吧

阿里用hadoop和hive比较早,版本比较老,于是各种bug比较多.但是阿里在开源圈没啥影响力,提交的bug和改进基本上没啥人理会.于是一方面自己改hadoop和hive,所谓云梯1,也能用,不过问题是要升级新版的hadoop和hive就不是那么容易了(其实这个影响不太大,新特性不是那么重要),另一批人就自己用C++做了一个云梯2,反正原理什么的都在那里,要做其实也不难.

网站首页 | 网站地图
All rights reserved Powered by www.zqrx.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com