[翻译][Spark In Action 中文版][Spark 实战 ]1.3 Spark 程序流

1.3 Spark 程序流

让我们看看一个典型的Spark程序是什么样子。 假设一个300 MB的日志文件存储在一个三节点HDFS集群中。 HDFS自动将文件拆分为128 MB部分(Hadoop术语中的块),并将每个部分放在集群的单独节点上(见图1.3)。 让我们假设Spark在YAR[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action 中文版][Spark 实战 ]1.2 Spark 组件

1.2 Spark 组件

Spark由多个专用组件组成。 这些是Spark Core,Spark SQL,Spark Streaming,Spark GraphX和Spark MLlib,如图1.2所示。
这些组件使Spark成为一个功能齐全的统一平台:它可以用于以前必须使用几个不同框架[……]

[yol出品] 全文阅读 >>

Java通过Jackson操作json的通用类JsonUtil

Jackson操作Json是公认性能最好的,于是手写了操作Json的公共类,使用jackson 2.0以上版本

最主要的用法是把任何对象转化为String的方法

然后是再反序列化的方法

这个方法有重构,一个参数是返回Map,两个参数是返回的List,注意泛型是可以传参数

详细代码如下


本文http://www.paymoon.com:8001/index.php/2016/12/27/operate-json-by-jackson-on-java/

如果转载请联系 龙遥Yol  i@paymoon.com


这个类可以结合RedisUtilSimple做缓存的操作,会使序列化和缓存非常方便。

[……]

[yol出品] 全文阅读 >>

Java操作Redis 缓存公共类 RedisUtil 和 RedisUtilSimple

写了一个Redis的公共类,包含两个,一个是Redis 申请和关闭的工具,一个是存取的工具。当然写一个也可以,分开了而已。

main方法里面有简单使用,直接获取和使用完关闭即可。注意关闭的时候,可以多次close,
[crayo[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action][Spark 实战 ]1.1.3 Spark 带来了什么

1.1.3 Spark 带来了什么

Spark的核心概念是一个内存中执行模型,它能够在内存中缓存作业数据,而不是像MapReduce一样每次从磁盘读取数据。这可以将作业的执行速度提高到100倍,与Map-Reduce中的相同作业相比,它对迭代算法(如机器学习,图形算法和需要重新使用数据[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action][Spark 实战 ]1.1.2 MapReduce 缺点

1.1.2 MapReduce 缺点

虽然Hadoop是当今大数据革命的基础,并且被积极使用和维护,但它仍然有它的缺点,他们主要关于它的Map-Reduce组件。 MapReduce作业结果需要存储在HDFS中,才能被其他作业使用。 由于这个原因,MapReduce本身就不适合迭代算法。

此外,[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action][Spark 实战 ]1.1.1 Spark 发展史

1.1.1 Spark 发展史

虽然过去十年看到Hadoop的广泛采用,Hadoop不是没有它的缺点。 它是强大的,但它处理速度很慢。 这为新技术(如Spark)开辟了道路,以解决Hadoop面临的相同问题,但Spark 更高效。 在接下来的几页中,我们将讨论Hadoop的缺点,以及Spark[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action][Spark 实战 ]1.1 Spark是什么

1.1  Spark 是什么

Apache Spark 是一种令人兴奋的新技术,它迅速取代Hadoop 的MapReduce 作为首选大数据处理平台。

Hadoop 是一个开源的,分布式的Java 计算框架,由Hadoop 分布式文件系统(HDFS)和MapReduce 的执行引擎组成。[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action][Spark 实战 ]Apache Spark 介绍

本章涵盖

Spark带来了什么

Spark组件

Spark程序流

Spark生态系统

下载并启动spark-in-action虚拟机

Apache Spark是一个快速,通用的分布式计算平台。听起来像市场宣传,然而这确实是最适合他的标签。

Apache Spark真的给大数[……]

[yol出品] 全文阅读 >>

[翻译][Spark In Action]Spark 实战 开篇首要

我们从这本书开始介绍Apache Spark及其丰富的API。了解第1部分中的信息对于编写高质量的Spark程序非常重要,并且是本书其余部分的良好基础。
第1章大致描述了Spark的主要特性,并将它们与Hadoop的MapReduce和Hadoop生态系统中的其他工具进行了比较。它还包括我们为您准备的spark-in-action虚拟机的说明,您可以使用它来运行书中的示例。


本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-first-step/

如果转载请联系 龙遥Yol  i@paymoon.com


第2章进一步探讨VM,教你如何使用Spark的命令行界面(spark-shell),并使用几个例子来解释弹性分布式数据集(RDDs) – Spark中的中心抽象。
在第3章中,您将学习如何将Eclipse设置为编写独立的Spark应用程序。然后你将编写一个这样的应用程序来分析GitHub日志并通过将它提交到Spark集群来执行应用程序。
第4章更详细地探讨了Spark核心API。具体来说,它展示了如何使用键值对,并解释了Spark中数据分区和混排的工作原理。它还教你如何分组,排序和连接数据,以及如何使用累加器和广播变量。

[……]

[yol出品] 全文阅读 >>