程序员

Spark SQL CLI部署CentOS分布式集群Hadoop上方法

作者:admin 2021-06-29 我要评论

? 前言 配置的虚拟机为Centos6.7系统hadoop版本为2.6.0版本先前已经完成搭建 CentOS部署Hbase 、 CentOS6.7搭建Zookeeper 和 编写MapReduce前置插件Hadoop-Eclip...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)

?


前言

配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署HbaseCentOS6.7搭建Zookeeper编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和MysqlSpark框架在CentOS下部署搭建。现在进行Spark的组件Spark SQL的部署。

对于Spark SQL的详细介绍可以在Spark框架深度理解二:生态圈中参阅。


首先我所部署的集群配置为

CentOS-6.7

Spark-2.4.7

Hive-2.3.7

若有版本不兼容的问题可参考其他版本的部署。

若要使用Spark SQL CLI的方式访问操作Hive表数据,需要对Spark SQL进行如下所示的环境配置,将Spark SQL 连接到一个部署好的Hive上。

当然即使没有部署好Hive,Spark SQL也是可以运行的,但是Spark SQL会在当前的工作目录中创建出自己的Hive元数据库,称为metastore_db。

现在正式进行配置。

(1)寻找自己所安装的Hive,进入到conf中:

将hive-site.xml文件复制到spark的conf目录下:

cp /usr/local/hive-2.3.7/conf/hive-site.xml /usr/local/spark2.4.7/conf

(2)现在我们需要MySQL驱动。缺少MySQL驱动可以自行在官网上下载

?wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.40.tar.gz

不过既然配置过Hive想必MySQL驱动以及放在原有的Hive的lib目录下

将该驱动放入spark的jars中(spark升到2.0.0版本后lib改为了jars目录)

cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark2.4.7/jars

然后在spark的spark-env.sh文件下添加一行路径

export SPARK_CLASSPATH=/usr/local/spark2.4.7/jars/mysql-connector-java-5.1.40-bin.jar

(3)启动MySQL服务

service mysqld start

(4)启动Hive的metastore服务:

(5)修改日志级别。

进入spark的conf目录:

将该目录下的log4j.properties.template文件复制为log4j.properties,修改该文件:

(6)启动Spark集群。

./start-all.sh

(7)启动spark-sql。进入spark的bin目录下:

测试完后验证部署成功。


?


?

;原文链接:https://blog.csdn.net/master_hunter/article/details/115677849

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • Spark SQL CLI部署CentOS分布式集群Had

    Spark SQL CLI部署CentOS分布式集群Had

  • 使用QQ推广作为客服或留言

    使用QQ推广作为客服或留言

  • kubernetes 安装新版metrics-server

    kubernetes 安装新版metrics-server

  • AUTO PWN

    AUTO PWN

腾讯云代理商
海外云服务器