前端开发技术(HTML、CSS 、JavaScript )书籍推荐
如果程序员的技术方向只分两类的话,无疑是前端和后端了。在一个越来越看重颜值的时代,前端开发的重要性和需求量必然会不断上升。今天CD君就给大家推荐一些前端开发的经…
如果程序员的技术方向只分两类的话,无疑是前端和后端了。在一个越来越看重颜值的时代,前端开发的重要性和需求量必然会不断上升。今天CD君就给大家推荐一些前端开发的经…
部署到集群 应用提交指南描述了如何将应用提交到集群上。简而言之,一旦你将你的应用打包进了一个JAR(对于Java/Scala)或者一组.py或.zip文件(对于…
共享变量 一般地,当一个函数被传递给一个在远程集群节点上执行的Spark操作时,在函数中用到的所有变量都是以独立拷贝的形式被使用。这些变量被拷贝到各个机器上,并…
RDD持久化 在不同操作之间将数据集持久化(或者缓存)在内存中是Spark最重要的能力之一。当你持久化一个RDD时,每个节点都会存储它在内存中计算的任何part…
Transformations 下面的表格列举了Spark支持的一些常见transformations。细节请参考RDD API文档(Scala, Java, …
理解闭包(closures) 关于Spark最难的一个问题是理解当在集群上执行代码时,变量和方法的作用域和生命周期。变量在其作用域之外被RDD操作修改是一个常见…
RDD操作 RDDs支持两种类型的操作:transformations,从一个已有的RDD创建出一个新的数据集;actions,针对数据集运行一种计算之后给驱动…
弹性分布式数据集(RDDs) Spark是围绕着弹性分布式数据集(RDD)来解决问题的,RDD是一个可容错的并且可以并行操作的元素集合。有两种创建RDDs的方式…