Spark官方文档-集群模式概览
集群模式概览 本文档为Spark是如何运行在集群上的提供了一个简短的概览,目的是使涉及到的各个组件更容易理解。请阅读应用提交指南来学习如何在一个集群上启动应用。…
集群模式概览 本文档为Spark是如何运行在集群上的提供了一个简短的概览,目的是使涉及到的各个组件更容易理解。请阅读应用提交指南来学习如何在一个集群上启动应用。…
部署到集群 应用提交指南描述了如何将应用提交到集群上。简而言之,一旦你将你的应用打包进了一个JAR(对于Java/Scala)或者一组.py或.zip文件(对于…
共享变量 一般地,当一个函数被传递给一个在远程集群节点上执行的Spark操作时,在函数中用到的所有变量都是以独立拷贝的形式被使用。这些变量被拷贝到各个机器上,并…
RDD持久化 在不同操作之间将数据集持久化(或者缓存)在内存中是Spark最重要的能力之一。当你持久化一个RDD时,每个节点都会存储它在内存中计算的任何part…
Transformations 下面的表格列举了Spark支持的一些常见transformations。细节请参考RDD API文档(Scala, Java, …
理解闭包(closures) 关于Spark最难的一个问题是理解当在集群上执行代码时,变量和方法的作用域和生命周期。变量在其作用域之外被RDD操作修改是一个常见…
RDD操作 RDDs支持两种类型的操作:transformations,从一个已有的RDD创建出一个新的数据集;actions,针对数据集运行一种计算之后给驱动…
弹性分布式数据集(RDDs) Spark是围绕着弹性分布式数据集(RDD)来解决问题的,RDD是一个可容错的并且可以并行操作的元素集合。有两种创建RDDs的方式…
概述 总的来说,每个Spark应用都包括一个在集群上运行用户的main函数和各种并行操作的驱动程序。Spark提供的主要抽象是一个弹性分布式数据集(RDD),R…
本文为使用Spark提供了简明介绍。我们首先会通过Spark的交互shell(使用Python或者Scala语言)介绍API,然后展示如何用Java,Scala…