您当前所在位置:首页 > 商学管理 > 商学观察

超越Spark100倍性能?不科学呀!

编辑:sx_gongy

2016-08-15

2004年,Google的MapReduce论文揭开了大数据处理的时代,现如今,大数据的发展已达到惊人的速度,大数据技术深刻改变了世界。超越Spark100倍性能是什么情况呢?

超越Spark100倍性能?不科学呀!

众所周知,大数据技术纷杂繁多,而Spark、Hive、Tez、RapidsDB这几款却深受开发者青睐,谈其性能各有千秋:

Spark是由UC Berkeley AMP Lab所开源的类Hadoop MapReduce的通用并行框架, 其拥有Hadoop MapReduce所具有的优点, 并且能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质是将SQL转换为MapReduce程序。

Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。

超越Spark100倍性能

RDP(Rapids Data Platform)是一个实时大数据分析领域的高性能分析应用平台。RapidsDB采用了内存计算(In-Memory Computing)技术。

正所谓萝卜青菜各有所爱,今天我们就来评测下深受开发者喜爱的Spark、Hive、Tez、RapidsDB将会带来哪些惊人的测试效果。本次评测旨在为数据库相关从业人员提供一个技术参考方向。

本次测试基于某证交所复杂的交易分析;测试场景包括: Hive1.2,Tez0.83,RapidsDB2.63,Spark 1.6。

Hive在所有查询中耗时都比较长;Tez次之;Spark位居第三;令笔者惊奇的是,RapidsDB的表现则最优。

关于超越Spark100倍性能就为大家介绍到这里。

相关推荐:

Souq获得2.75亿美元投资 估值达10亿美元

SpaceX火星发动机首测 火星移民时代开启

标签:商学观察

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。