当前位置：首页>开发>正文

如何在本地安装运行Spark 远程连接pyspark 需要本地安装spark吗

2023-05-22 21:47:45 互联网未知开发

如何在本地安装运行Spark？

2.1.2　在Windows上安装与配置Spark

本节介绍在Windows系统上安装Spark的过程。在Windows环境下需要安装Cygwin模拟Linux的命令行环境来安装Spark。

（1）安装JDK

相对于Linux、Windows的JDK安装更加自动化，用户可以下载安装Oracle JDK或者OpenJDK。只安装JRE是不够的，用户应该下载整个JDK。

安装过程十分简单，运行二进制可执行文件即可，程序会自动配置环境变量。

（2）安装Cygwin

Cygwin是在Windows平台下模拟Linux环境的一个非常有用的工具，只有通过它才可以在Windows环境下安装Hadoop和Spark。具体安装步骤如下。

1）运行安装程序，选择install from internet。

2）选择网络最好的下载源进行下载。

3）进入Select Packages界面（见图2-2），然后进入Net，选择openssl及openssh。因为之后还是会用到ssh无密钥登录的。

另外应该安装“Editors Category”下面的“vim”。这样就可以在Cygwin上方便地修改配置文件。

最后需要配置环境变量，依次选择“我的电脑”→“属性”→“高级系统设置”→“环境变量”命令，更新环境变量中的path设置，在其后添加Cygwin的bin目录和Cygwin的usrin两个目录。

（3）安装sshd并配置免密码登录

1）双击桌面上的Cygwin图标，启动Cygwin，执行ssh-host-config -y命令，出现如图2-3所示的界面。

2）执行后，提示输入密码，否则会退出该配置，此时输入密码和确认密码，按回车键。最后出现Host configuration finished.Have fun!表示安装成功。

3）输入net start sshd，启动服务。或者在系统的服务中找到并启动Cygwin sshd服务。

注意，如果是Windows 8操作系统，启动Cygwin时，需要以管理员身份运行（右击图标，选择以管理员身份运行），否则会因为权限问题，提示“发生系统错误5”。

（4）配置SSH免密码登录

1）执行ssh-keygen命令生成密钥文件，如图2-4所示。

2）执行此命令后，在你的Cygwinhome用户名路径下面会生成.ssh文件夹，可以通过命令ls -a /home/用户名查看，通过ssh -version命令查看版本。

3）执行完ssh-keygen命令后，再执行下面命令，生成authorized_keys文件。

cd ~/.ssh/
cp id_dsa.pub authorized_keys
这样就配置好了sshd服务。

（5）配置Hadoop

修改和配置相关文件与Linux的配置一致，读者可以参照上文Linux中的配置方式，这里不再赘述。

（6）配置Spark

修改和配置相关文件与Linux的配置一致，读者可以参照上文Linux中的配置方式，这里不再赘述。

（7）运行Spark

1）Spark的启动与关闭

①在Spark根目录启动Spark。

./sbin/start-all.sh
②关闭Spark。

./sbin/stop-all.sh
2）Hadoop的启动与关闭

①在Hadoop根目录启动Hadoop。

./sbin/start-all.sh
②关闭Hadoop。

./sbin/stop-all.sh
3）检测是否安装成功

正常状态下会出现如下内容。

-bash-4.1# jps
23526 Jps
2127 Master
7396 NameNode
7594 SecondaryNameNode
7681 ResourceManager
1053 DataNode
31935 NodeManager
1405 Worker
如缺少进程请到logs文件夹下查看相应日志，针对具体问题进行解决。

远程连接pyspark 需要本地安装spark吗

本地连接是指电脑的网卡与所在局域网已经连接上了，并不代表已经可以连接外网了，还需要分配IP地址。

步骤如下：
1、右击“我的电脑”选择“管理”打开。
2、选择“设备管理器”，点击打开“网络适配器”。
3、双击打开“控制台的全屏显示视频驱动程序”是否安装正常。如果显示是黄色感叹号或问号就重新安装。
4、检查“本地连接”IP设置，点“属性”打开“internet协议”将手动设置改为自动获取IP，最后点击“确定”操作完成，电脑可以自动连网了。

安装spark需要先安装hadoop吗

如果只是以伪分布式模式安装Spark，可以不安装Hadoop，因为可以直接从本地读取文件。
如果以完全分布式模式安装Spark，由于我们需要使用HDFS来持久化数据，一般需要先安装Hadoop。

安装spark前需要先安装hadoop吗

一般都是要先装hadoop的，如果你只是玩Spark On Standalon的话，就不需要，如果你想玩Spark On Yarn或者是需要去hdfs取数据的话，就应该先装hadoop。

sparkjava怎么停止服务

这里是结合Hadoop2.0使用的1，download:根据下载的spark的README中的描述下载合适的版本3，安装其实就是解压，配置/etc/profile环境变量exportSPARK_HOME=/data1/spark/sparkexportSCALA_HOME=/data1/spark/scala-2.9.3exportPATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin配置spark的conf下的spark-env.shexportJAVA_HOME=/usr/java/defaultexportSCALA_HOME=/data1/spark/scala-2.9.3exportSPARK_MASTER_IP=192.168.0.1exportSPARK_MASTER_WEBUI_PORT=8080exportSPARK_WORKER_WEBUI_PORT=8000exportYARN_CONF_DIR=/data/hadoop/hadoop-2.0/etc/hadoop配置slaves(ip根据需要修改)192.168.0.2192.168.0.3分发spark目录和scala目录到几台服务器相同路径下4,启动进入主节点的spark目录的bin下stop-all.sh是停掉集群，start-all.sh启动集群，jps可以在主节点看到master进程，slave节点看到worker进程5，运行程序，运行例子进入spark目录下分布式运行./run-exampleorg.apache.spark.examples.SparkPispark://192.168.0.1:7077./run-exampleorg.apache.spark.examples.SparkLRspark://192.168.0.1:7077本地运行./run-exampleorg.apache.spark.examples.SparkPilocal./run-exampleorg.apache.spark.examples.SparkLRlocal

如何在本地安装运行Spark 远程连接pyspark 需要本地安装spark吗

如何在本地安装运行Spark？

远程连接pyspark 需要本地安装spark吗

安装spark需要先安装hadoop吗

安装spark前需要先安装hadoop吗

sparkjava怎么停止服务

最新文章

随便看看