Sahara/SparkPluginNotes

Sahara Spark 插件

此页面描述了如何在 Sahara 中使用 Apache Spark 插件。

sahara-image-builder 工具包含用于安装和预配置 Spark 和 Cloudera HDFS 的元素。

要生成与 Sahara 插件兼容的 Ubuntu 镜像，请运行

# diskimage-builder.sh -p spark

Spark 将从二进制发行版安装，并配置为以独立模式运行（无 Mesos，无 Yarn）。

请注意，Spark 集群是使用 Spark 发行版中提供的脚本部署的，这些脚本允许启动所有服务（master 和 slaves），停止所有服务等等。因此（与 CDH HDFS 守护进程相反），Spark 并非作为标准的 Ubuntu 服务部署，如果虚拟机重新启动，Spark 将不会自动重启。

Spark 需要少量参数即可工作，并且具有合理的默认值。如果需要，可以在创建 Sahara 集群模板时更改它们。没有节点组选项可用。

Spark 集群需要恰好一个 Spark master 和至少一个 Spark slave。经过测试的配置将 NameNode 与 master 放置在同一位置，并将 DataNode 与每个 slave 放置在同一位置，以最大化数据本地性。

一旦集群准备就绪，使用 'ubuntu' 用户和相应的 ssh 密钥通过 ssh 连接到 master。Spark 安装在 /opt/spark 中，应该已经完全配置并准备好开始执行作业。在 OpenStack 控制面板的集群信息页面底部，提供了一个指向 Spark Web 界面的链接。