近日,IT168记者有幸采访到了VMware高级经理王蔚东先生,其2012年加入VMware公司,负责虚拟化和云计算领域中数据存储、管理及利用的咨询和解决方案。在数据仓库、大数据及数据分析有多年的经验。
Hadoop在国内发展进入快速增长期
Hadoop是一项开源技术,目前网络上大概有上千个论坛、社区,技术门槛也比较低。据王蔚东介绍,从2008年开始,很多国外的互联网企业就开始采用Hadoop,目前,也有很多传统企业开始部署Hadoop, 比如AT&T、沃尔玛等。
“目前在国内,我们知道像淘宝、京东等很多企业已经开始使用Hadoop,而更多的企业也已经开始尝试使用。由于企业对数据的重视度不断提高,市场竞争的加剧,也由于Hadoop及相关大数据技术有了很大的完善,Hadoop服务提供商越来越多,国内的电信、电销、物流等行业的需求非常强烈,Hadoop在国内的的应用会进入到一个快速增长期。”
VMware助力Hadoop与虚拟化结合
传统虚拟化给企业带来好处已经众所周知,无论是丛IT系统构建,还是从运行维护,乃至运营管理,我们都实实在在地感受到它的好处。“Hadoop被用来解决企业大数据的问题,我过去看到,大多数的应用场景是单独建立一个x86服务器的集群来跑map/reduce任务,随着数据量和数据查询分析任务的增加,服务器的数量也要不断增加。这时,就带来了一系列新的问题,首先这个Hadoop集群需要有IT人员来专门维护和管理,其次,我们知道日常Hadoop任务是会有波峰波谷的分布,往往是某一时段,任务会比较密集,机器的CPU、IO和存储会非常繁忙,而其它时间,机器就比较空闲,存在资源浪费的情况。”王蔚东表示。
由此,很多使用和尝试Hadoop的企业,就希望能够把这样一个越来越大的Hadoop集群放到自己的云平台里,能够统一管理和使用。除此之外,我们知道,Hadoop本身是一项开源的技术,虽然入门容易,但是要大规模企业级应用,还存在非常多的困难。比如安装部署、Fix Bug、升级等等,即使目前有一些Hadoop的商用版,可以提供部分的现场服务,但是也会导致使用者的整体拥有成本大大增加。
据王蔚东介绍,目前VMware就是要解决这个问题。据了解,从2012年初, VMware就与Apache Hadoop社区展开合作,开始推广一个开源项目—Serengeti,通过把Apache Hadoop节点从底层物理基础架构剥离,VMware可以将云基础架构的优势带给Hadoop,包括快速部署、高可用性、最佳资源利用率、灵活和安全多租户。
“事实上,很多Hadoop发行版的厂家,都曾提出来Hadoop不适合在虚拟化平台上运行,理由是Hadoop的特点是在本地磁盘上运行,而虚拟化都是在共享磁盘上;而且虚拟机增加了额外开销,在虚拟机上运行Hadoop性能会变慢。”但Serengeti推出后,彻底改变了这些看法。多数人知道Vsphere的工作模式是将数据存储到共享磁盘,其实Vsphere也支持本地磁盘,这完全取决于用户的应用场景。
目前,Serengeti被大量下载和试用,并获得了广泛的认可。 “VMware决定把它嵌入到Vsphere里,也就是说任何购买Vsphere5.5的用户, 都可以免费获得一个组件,它可以用来部署和管理Hadoop.这个组件叫作 Vsphere Big Data Extension,简称BDE。BDE作为商用软件,在可靠性,性能方面,要远远高于Serengeti。同时,它还支持多数市场上主流的Hadoop发行版, 如MP/R,Cloudera,Pivotal HD,Intel等等。”王蔚东介绍说。
事实上,尽管Hadoop被证明可以与虚拟化进行结合,但人们不得不担心性能问题。王蔚东表示,由于安装了虚拟机,会占用服务器的一部分内存和CPU,会导致系统整理性能有所下降,把Hadoop装到虚拟机上,肯定会带来部分性能的下降,关键是下降幅度有多大。“比如,我们正在为国内一家比较大的企业做POC,他们是VMware的老用户,对虚拟化的了解程度很深,我们在向他们推荐我们的解决方案时,开门见山地提出对性能的担忧,提出了十多项性能测试指标,包括Terasort、K-means性能等。与物理环境的Hadoop比,整体测试结果表明,性能损失基本保持在15%的范围内,一些指标如NoSQL并发、访问、数据的吞吐能力、HIVE处理能力等,都与物理环境的Hadoop十分接近。”
致力于降低Hadoop使用门槛
据王蔚东介绍说,其工作大部分都与云计算相关,BDE是其工作中比较重要的一部分。“我们的CEO Pat Gelsinger提出了三个战略即软件定义的数据中心、混合云和终端用户计算,在这三个方面,都与大数据有直接的关系。比如软件定义的数据中心,针对于不同的应用场景,我的团队就要提供方案,快速部署和全面管理Hadoop集群。同时我们也在尝试把Hadoop作为一项服务,部署到PAAS层,以降低它的使用门槛,为企业中各类使用者提供灵活可控的大数据服务。”
Hadoop作为一项技术,目前确实非常流行。王蔚东老师介绍说,国内的开发者和试用的企业已经有了很多了解,搞的比较好的发行版有MP/R, Cloudera;Horntworks;常去他们的网站会得到比较新的知识,另外大家也都别忘了Apache Hadoop社区,上面有最新的进展。目前,国内的开发者和企业, 早已不满足Hadoop的知识学习和研究,更关注Hadoop的具体应用。
“我们的团队,也在最近推出了自己的博客(http://vbigdata.blog.51cto.com/),里面有我们提出Hadoop虚拟化的概念,技术架构和细节,围绕着Hadoop虚拟化会出现的各种问题,也会有Hadoop虚拟化的应用实践。这里,我欢迎大家到我们的博客上进行交流,在大数据领域和我们共同成长。”
关于Hadoop中国技术峰会,王蔚东老师表示几乎每届都会参加,“前几年主要是Hadoop技术的介绍和推广,更偏重纯技术,但是这个峰会对国内普及Hadoop为主的大数据相关技术产生了巨大的推动作用。近一、两年,会议的重心产生了些变化,即由纯技术+学术转变到技术+应用,我认为这是一个可喜的变化,证明Hadoop终于开始在国内广泛应用了,同时也催生了一些新的角色,如Data Scientist,Data Governor。”
这些变化,也直接证明了国内,大家真正开始重视数据,逐渐把数据作为一种潜在的资源进行保护和利用。Hadoop是一项开源技术,随着这项技术逐渐成熟,势必会有更广泛的应用,但是应用的深度和广度,需要众多的解决方案提供商,Hadoop专家,数据管理专家,成熟的企业应用需求,类似一套完整的生态系统保证,同时,我们也希望这次峰会能提供契机, 帮助国内Hadoop领域开始建立这样的一套生态系统。
据悉,在本次大会上,王蔚东老师将会为大家介绍VMware在虚拟Hadoop技术方面的最新进展,如对YARN 的支持,如何做到对Hadoop集群的灵活控制。在应用方面,会介绍如何解决传统物理Hadoop集群数据安全性的问题。“同时我也非常乐意把我们在国内外的一些最新的成功案例介绍给大家,还包括我们从着手开始一个项目到方案落地的一整套实施模式。另外, 也会和大家一起探讨未来Hadoop的发展方向,听听大家对Hadoop在虚拟平台上的看法;把Hadoop技术引入BI系统,是否可以取代现在的一体机等等。”
来源:51CTO.COM