[翻译][Spark In Action]Spark 实战 开篇首要

我们从这本书开始介绍Apache Spark及其丰富的API。了解第1部分中的信息对于编写高质量的Spark程序非常重要,并且是本书其余部分的良好基础。
第1章大致描述了Spark的主要特性,并将它们与Hadoop的MapReduce和Hadoop生态系统中的其他工具进行了比较。它还包括我们为您准备的spark-in-action虚拟机的说明,您可以使用它来运行书中的示例。


本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-first-step/

如果转载请联系 龙遥Yol  i@paymoon.com


第2章进一步探讨VM,教你如何使用Spark的命令行界面(spark-shell),并使用几个例子来解释弹性分布式数据集(RDDs) – Spark中的中心抽象。
在第3章中,您将学习如何将Eclipse设置为编写独立的Spark应用程序。然后你将编写一个这样的应用程序来分析GitHub日志并通过将它提交到Spark集群来执行应用程序。
第4章更详细地探讨了Spark核心API。具体来说,它展示了如何使用键值对,并解释了Spark中数据分区和混排的工作原理。它还教你如何分组,排序和连接数据,以及如何使用累加器和广播变量。

更多:[翻译]Spark In Action – PayMoon贝明实验室

[翻译]Spark In Action

发表评论

电子邮件地址不会被公开。