[翻译][Spark In Action 中文版][Spark 实战 ]1.6 总结

1.6 总结


■  Apache Spark是一种令人兴奋的新技术,它迅速取代Hadoop的MapReduce作为首选大数据处理平台。
■  Spark程序的速度可以比MapReduce快100倍。
■  Spark支持Java,Scala,Python和R语言。
■  使用Spark编写分布式程序与编写本地Java,Scala或Python程序类似。
■  Spark为单个框架中的批处理编程,实时数据处理功能,结构化数据的类似SQL的处理,图形算法和机器学习提供了一个统一的平台。


www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-1-6-summary/


■  Spark不适合小型数据集,也不应将其用于OLTP应用程序。
■  主要的Spark组件是Spark Core,Spark SQL,Spark Streaming,Spark MLlib和Spark GraphX。
■  RDD是Spark对分布式集合的抽象。
■  Spark取代了Hadoop生态系统中的一些工具。
■  您将使用spark-in-action VM来运行本书中的示例。


本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-1-6-summary/

如果转载请联系 龙遥Yol  i@paymoon.com


Spark 实战更多文章:[翻译]Spark In Action – PayMoon贝明实验室

[翻译]Spark In Action

发表评论

电子邮件地址不会被公开。