[翻译][Spark In Action 中文版][Spark 实战 ]1.5 启动spark-in-action的虚拟机

1.5 启动spark-in-action的虚拟机


为了方便您设置Spark学习环境,我们准备了一个虚拟机(VM),您将在本书中使用它。 它将允许您运行所有的例子从书中没有惊喜,由于不同版本的Java,Spark或您的操作系统。 例如,在Windows上运行Spark示例时可能会遇到问题; 毕竟,Spark是在OS X和Linux上开发的,所以,可以理解,Windows不是完全在焦点。 VM将保证我们都在同一页上,可以这么说。
VM由以下软件堆栈组成:

■ 64位Ubuntu操作系统,14.04.4(昵称为Trusty) – 目前是具有长期支持(LTS)的最新版本。
设置火花在动作VM 15
■ Java 8(OpenJDK) – 即使你计划只使用来自Python的Spark,你必须安装Java,因为Spark的Python API与在JVM中运行的Spark通信。
■ Hadoop 2.7.2-Hadoop不是使用Spark的硬性要求。如果您正在运行本地群集(这是我们的VM的情况),您可以从本地文件系统保存和加载文件。但是,一旦您设置了真正的分布式Spark集群,您将需要一个分布式文件系统,如Hadoop的HDFS。 Hadoop安装也将在第12章中用于尝试在YARN上运行Spark的方法,Hadoop的执行环境。
■ Spark 2.0 – 我们在本书完成时包含了最新的Spark版本。您可以按照第2章中的说明轻松升级VM中的Spark版本,如果您愿意的话。
■ Kafka 0.8.2-Kafka是一个分布式消息传递系统,在第6章和第13章中使用。


本文http://www.paymoon.com:8001/index.php/2016/12/27/setting-up-the-spark-in-action-vm/

如果转载请联系 龙遥Yol  i@paymoon.com


我们选择了Ubuntu,因为它是一个流行的Linux发行版,Linux是首选的Spark平台。 如果你以前从未使用过Ubuntu,这可能是你开始的机会。 我们将引导你,解释命令和概念,当你通过这些章节。
在这里,我们将仅解释基本知识:如何下载,启动和停止VM。 我们将在下一章中详细介绍如何使用它。

1.5.1 下载并启动VM


要运行VM,您需要一个64位操作系统,至少有3 GB的可用内存和15 GB的可用磁盘空间。 您首先需要为您的平台安装这两个软件包:

■ Oracle VirtualBox-Oracle的免费开源硬件虚拟化软件(www.virtualbox.org)
■ Vagrant-HashiCorp的用于配置便携式开发环境的软件
(www.vagrantup.com/downloads.html)

当您安装这两个时,创建一个用于托管VM的文件夹(称为,例如spark-in-action),然后输入。 然后从我们的在线存储库下载Vagrant框元数据JSON文件。 您可以手动下载或在Linux或Mac上使用wget命令:

然后发出以下命令以下载VM:

Vagrant框元数据JSON文件指向Vagrant框文件。 该命令将下载5 GB VM框(这可能需要一些时间),并将其注册为manning/spark-in-action 虚拟机.。 要使用它,请通过发出以下命令在当前目录中初始化Vagrant VM:

最后,使用vagrant up命令启动VM(这也将分配大约10 GB的磁盘空间):

如果您的计算机上有多个网络接口,系统会要求您选择其中一个网络接口连接到虚拟机。 选择有权访问互联网的。 例如:

1.5.2 停止VM


您将在下一章中学习如何使用VM。 现在,我们只会告诉你如何停止它。 要关闭VM,请发出以下命令:

这将停止机器,但保留您的工作。 如果你想完全删除VM并释放它的空间,你需要销毁它:

您还可以使用此命令删除下载的Vagrant框(用于创建VM):

但我们希望你不会觉得这需要相当一段时间。


本文http://www.paymoon.com:8001/index.php/2016/12/27/setting-up-the-spark-in-action-vm/

如果转载请联系 龙遥Yol  i@paymoon.com


Spark 实战更多文章:[翻译]Spark In Action – PayMoon贝明实验室

[翻译]Spark In Action

发表评论

电子邮件地址不会被公开。