Spark-一个独立应用

[TOC]

Spark:一个独立应用

关于构建

Java和Scala

在Java和Scala中,只需要给你的应用添加一个对于spark-core的Maven依赖.

Python

在Python中,可以把应用写成脚本,然后使用Spark自带的bin/spark-submit脚本来运行.spark-submit会引入Python程序的Spark依赖.使用方式如下所示. /PATH_TO_SPARK/bin/spark-submit my_python_script.py

初始化SparkContext

  • 先创建一个SparkConf对象来配置应用

  • 基于SparkConf创建一个SparkContext对象

Python示例

代码

from pyspark import SparkConf, SparkContext


conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

运行

Scala示例

Java示例

说明

上述例子是创建SparkContext的最基本的方法,你只需传递两个参数:

  • 集群URL(上述是local),告诉Spark如何运行连接到集群上

  • 应用名可以用来在集群管理器的用户界面找到该应用

独立应用示例

创建空白目录,在新建目录下,新建文件simpleApp.Scala,添加如下代码.

Scala代码

构建文件

在新建目录下,新建文件simple.sbt,复制如下代码.

  • 使用scala -version命令查看scala版本,使用spark-shell可以查看spark版本及scala版本,使用:quit命令退出spark-shell

说明

  • 程序构建需要安装sbt

  • 程序用来统计README.md文件中包含ab的行数

  • 需要将README.md放到Spark使用的文件系统的相应位置.比如,如果使用的是HDFS,README.md应该放在/user/YOUR_USER_NAME/目录下, 或者将val logFile = "README.md"中的文件路径改为绝对路径,例如:val logFile = "/user/mint/README.md".

构建

新建文件夹下包含的文件

执行构建

运行构建的程序

最后更新于

这有帮助吗?