[翻译][Spark In Action][Spark 实战 ]1.1.1 Spark 发展史

1.1.1 Spark 发展史

虽然过去十年看到Hadoop的广泛采用,Hadoop不是没有它的缺点。 它是强大的,但它处理速度很慢。 这为新技术(如Spark)开辟了道路,以解决Hadoop面临的相同问题,但Spark 更高效。 在接下来的几页中,我们将讨论Hadoop的缺点,以及Spark如何解决这些问题。
Hadoop框架及其HDFS和MapReduce数据处理引擎,
是第一个将分布式计算带给大众的。 Hadoop解决了
任何分布式数据处理工作面临的三个主要问题:


本文http://www.paymoon.com:8001/index.php/2016/12/27/the-spark-revolution/

如果转载请联系 龙遥Yol  i@paymoon.com


1、并行化 – 如何同时执行计算的子集

2、分发 – 如何分发数据

3、容错 – 如何处理组件故障
注意附录A更详细地描述了MapReduce。
此外,Hadoop集群通常由商品硬件组成,这使Hadoop易于设置。 这就是为什么过去十年被广泛采用。

发表评论

电子邮件地址不会被公开。