安装Hadoop及Spark(Ubuntu 16.04)
安装JDK
下载jdk(以jdk-8u91-linux-x64.tar.gz为例)
新建文件夹
sudo mkdir /usr/lib/jvm
解压下载的jdk文件并移动到新建的文件夹下
sudo tar -xzvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jvm
进入jvm文件夹并重命名解压出来的文件夹
添加环境变量
使配置生效
source /etc/profile
测试
java -version
安装Scala
类似于jdk的安装
下载scala(以scala-2.11.8.tgz为例)
解压下载的scala文件
sudo tar -xzvf scala-2.11.8.tgz -C /usr/local
重命名
添加环境变量
使配置生效
source /etc/profile
测试
scala -version
安装Hadoop
Spark默认使用HDFS充当持久化层,所以需要安装Hadoop,当然也可以不安装
参考
安装
安装ssh
sudo apt install openssh-server
配置ssh无密登陆
测试ssh无密登陆
ssh localhost # 如果不提示输入密码则配置成功
下载Hadoop(以hadoop-2.7.2.tar.gz为例)
解压
sudo tar -xzvf hadoop-2.7.2.tar.gz -C /usr/local
重命名
修改权限
配置环境变量
测试
hadoop version
Hadoop伪分布式配置
修改配置文件
core-site.xml
修改配置文件
hdfs-site.xml
修改配置文件
hadoop-env.sh
执行NameNode格式化
hdfs namenode -format
运行
start-dfs.sh
测试
jps
有如下几个进程
通过浏览器查看
在浏览器中输入一下地址:
localhost:50070
配置YARN
修改配置文件
mapred-site.xml
修改配置文件
yarn-site.xml
编写启动脚本
编写停止脚本
通过 Web 界面查看任务的运行情况
浏览器中输入地址:
localhost:8088
安装Spark
下载spark(以spark-2.0.0-bin-hadoop2.7.tgz为例)
解压下载的spark文件
sudo tar -zxf spark-2.0.0-bin-hadoop2.7.tgz -C /usr/local
重命名
添加环境变量
修改一下权限
拷贝配置文件
修改配置文件
运行简单示例
/usr/local/spark/bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
启动Spark
/usr/local/spark/sbin/start-all.sh
编写脚本
启动Hadoop以及Spark
停止Hadoop以及Spark
通过WEB页面查看
浏览器中输入地址:
localhost:8080
最后更新于
这有帮助吗?