从互联网到学术界 Hadoop社区渐成气候

从互联网到学术界 Hadoop社区渐成气候

来源:BOT    更新时间:2019-05-24 10:28:41    编辑:IDC圈    浏览:606

记者注意到,此次大会邀请了Yahoo!、Facebook、百度、中国移动研究院、淘宝、EMC、VMware、Intel、IBM、eBay等国内外著名IT企业到会分享交流技术内容,其中大部分是互联网企业。而且,听众当中也有很多人来自互联网、SNS、电子商务等领域。对于Hadoop为什么受到互联网等企业的追捧,查礼在接受采访时谈到,Hadoop作为一种支撑大规模互联网服务的软件平台和工具集,可以用来解决分布式计算中的很多问题,跟商业软件相比,有两大主要优势:一是实用,效率较高,能够处理许多商业软件如传统数据库不能做的事情,特别是在大规模数据处理和计算方面,Hadoop的优势非常明显;二是开源,成本低,而且容易修改,便于做二次开发,这尤其对于那些新兴互联网业务非常适用。

据了解,Hadoop的软件工具非常丰富,主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及面向大规模分布式系统的数据收集软件Chukwa等。

自2002年Apache设置相关项目以来,源于互联网的Hadoop也渐渐在互联网领域扎下了根。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop每天处理1PB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。

Hadoop技术除已经在互联网领域得到广泛应用之外,同时也受到了学术界的普遍关注。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。在此次大会上,中科院计算所、江南计算所、清华大学、中国人民大学等科研院所专家到会报告了最新研究进展。毕竟,只要有大规模数据处理的地方,就可能有Hadoop的生存之地。

从互联网到学术界 Hadoop社区渐成气候

▲计算所展示Hadoop研究成果

如同Hadoop技术本身,Hadoop社区也还处于发展当中。谈到当前Hadoop的生态系统,查礼将其定位于“正在发展”当中,但已经过了“初创过渡”那个阶段。他告诉记者,现在Hadoop已经有了比较畅通的沟通渠道,比如Hadoop in China大会就是一个典型平台,而且也有很多企业参与其中,大家在不同的点上做开源式的创新。计算所本身也在做Hadoop的研究,查礼所在的系统软件组主要从事的是Hadoop的系统优化研究。

不过,查礼也谈到,国内Hadoop生态系统的运作机制还不够完善,比如在国外有专门的基金会支持开源,而且有企业愿意掏钱资助,但在国内这样的机制还不成熟,Hadoop开源社区运作起来就显得比较松散。计算所希望通过Hadoop in China 志愿者社区和相关会议平台,能够推动Hadoop在中国的发展,促进它成为更加完整、更加有效的开源软件。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容