跳转到: 导航, 搜索

Sahara/SparkPluginNotes

Sahara Spark 插件

此页面描述了如何在 Sahara 中使用 Apache Spark 插件。

磁盘镜像

sahara-image-builder 工具包含用于安装和预配置 Spark 和 Cloudera HDFS 的元素。

要生成与 Sahara 插件兼容的 Ubuntu 镜像,请运行

# diskimage-builder.sh -p spark

Spark 将从二进制发行版安装,并配置为以独立模式运行(无 Mesos,无 Yarn)。

请注意,Spark 集群是使用 Spark 发行版中提供的脚本部署的,这些脚本允许启动所有服务(master 和 slaves),停止所有服务等等。因此(与 CDH HDFS 守护进程相反),Spark 并非作为标准的 Ubuntu 服务部署,如果虚拟机重新启动,Spark 将不会自动重启。

配置

Spark 需要少量参数即可工作,并且具有合理的默认值。如果需要,可以在创建 Sahara 集群模板时更改它们。没有节点组选项可用。

Spark 集群需要恰好一个 Spark master 和至少一个 Spark slave。经过测试的配置将 NameNode 与 master 放置在同一位置,并将 DataNode 与每个 slave 放置在同一位置,以最大化数据本地性。

运行

一旦集群准备就绪,使用 'ubuntu' 用户和相应的 ssh 密钥通过 ssh 连接到 master。Spark 安装在 /opt/spark 中,应该已经完全配置并准备好开始执行作业。在 OpenStack 控制面板的集群信息页面底部,提供了一个指向 Spark Web 界面的链接。