Spark官方文档-Spark编程指南(第八节)

Spark官方文档-Spark编程指南(第八节)

部署到集群

应用提交指南描述了如何将应用提交到集群上。简而言之,一旦你将你的应用打包进了一个JAR(对于Java/Scala)或者一组.py或.zip文件(对于Python),则脚本bin/spark-submit允许你把它提交到所有受支持的集群管理器上。

从Java/Scala启动Spark jobs

org.apache.spark.launcher包为使用一个简单的Java API启动Spark jobs作为子进程提供了相应的类。

单元测试

Spark对于使用任何流行的单元测试框架进行单元测试都有很好的支持。在你的测试中创建一个SparkContext,并将master URL设置为local,运行你的操作,然后调用SparkContext.stop()销毁它。请确保你是在一个finally代码块或者测试框架的tearDown方法中stop context的,这是因为Spark不支持在相同的程序中同时运行两个contexts。

下一步学习什么

你可以在Spark网站上看一些Spark程序实例。另外,Spark在examples目录中(Scala, Java, Python, R)包含了一些实例。你可以通过给Spark的bin/run-example脚本传递类名来运行Java和Scala的例子;例如:

./bin/run-example SparkPi

对于Python的例子,使用spark-submit:

./bin/spark-submit examples/src/main/python/pi.py

对于R的例子,也使用spark-submit:

./bin/spark-submit examples/src/main/r/dataframe.R

如果需要程序优化方面的帮助,配置调优指南提供了最佳实践的相关信息。它们对于当需要确保你的数据是以高效的方式保存在内存中时尤为重要。如果需要部署方面的帮助,集群模式概览描述了分布式操作涉及的各组成部分和受支持的集群管理器。

最后,可查看完整的API文档:Scala, Java, PythonR

上一篇:Spark官方文档-Spark编程指南(第七节)

参考资料

本文译自Spark Programming Guide

发表评论

电子邮件地址不会被公开。 必填项已用*标注