Sahara/SparkPlugin
< Sahara
简介
Spark 是一个快速且通用的、用于大规模数据处理的引擎。
此蓝图 提出一个 Sahara Spark 插件,它可以启动和调整 Spark 集群,并运行 EDP 作业。
目前,Spark 以“独立”部署模式使用:因此,Spark 集群适用于 EDP 作业和单个 spark 应用程序(该集群不适用于多租户设置)。目前,不支持基于“Mesos”或“YARN”的部署。
支持的发布版本
此插件仅支持基于 Cloudera 的 HDFS (CDH4, CDH5) 数据层,但此限制将在未来的发布版本中得到解决。
随此插件提供的配套 磁盘镜像构建元素 默认生成包含 Spark 和 Hadoop 版本(已知与 Spark 插件的相应版本协同工作)的磁盘镜像。下表显示了每个 OpenStack 版本支持的版本
| OpenStack 发布版本 | Spark 版本 | Hadoop 版本 | 笔记 |
|---|---|---|---|
| Kilo 及更早版本 | 1.0.2 | CDH4 | EDP 大部分可用,Swift 数据源可能无法开箱即用。 |
| Liberty (计划中) | 1.3.1 (1.4.0) | CDH 5.3 | 1.3.1 已合并,1.4 正在测试中,1.0 已弃用 |
文档
- 如何使用 Spark 插件:Sahara/SparkPluginNotes
- 关于 sahara-image-elements 更改的说明:Sahara/SparkImageBuilder
状态
最新的开发工作在 GitHub 上的 Bigfoot 项目 Sahara 页面 上进行。请检查该版本以获取对 Spark 更多最新版本、错误修复和优化的支持。
开发由 Daniele Venzano(Eurecom 研究工程师)和 Pietro Michiardi(Eurecom 教授)完成。该插件的初步版本是在 Eurecom 的两名硕士生 Do Huy-Hoang 和 Vo Thanh Phuc 的额外帮助下开发的。这项工作部分由 BigFoot 项目资助,该项目是由 EC 资助的研究项目,协议编号为 n. 317858。