跳转到: 导航, 搜索

Sahara/SparkPlugin

简介

Spark 是一个快速且通用的、用于大规模数据处理的引擎。
此蓝图 提出一个 Sahara Spark 插件,它可以启动和调整 Spark 集群,并运行 EDP 作业。

目前,Spark 以“独立”部署模式使用:因此,Spark 集群适用于 EDP 作业和单个 spark 应用程序(该集群不适用于多租户设置)。目前,不支持基于“Mesos”或“YARN”的部署。

支持的发布版本

此插件仅支持基于 Cloudera 的 HDFS (CDH4, CDH5) 数据层,但此限制将在未来的发布版本中得到解决。

随此插件提供的配套 磁盘镜像构建元素 默认生成包含 Spark 和 Hadoop 版本(已知与 Spark 插件的相应版本协同工作)的磁盘镜像。下表显示了每个 OpenStack 版本支持的版本

OpenStack 发布版本 Spark 版本 Hadoop 版本 笔记
Kilo 及更早版本 1.0.2 CDH4 EDP 大部分可用,Swift 数据源可能无法开箱即用。
Liberty (计划中) 1.3.1 (1.4.0) CDH 5.3 1.3.1 已合并,1.4 正在测试中,1.0 已弃用

文档

状态

最新的开发工作在 GitHub 上的 Bigfoot 项目 Sahara 页面 上进行。请检查该版本以获取对 Spark 更多最新版本、错误修复和优化的支持。

开发由 Daniele Venzano(Eurecom 研究工程师)和 Pietro Michiardi(Eurecom 教授)完成。该插件的初步版本是在 Eurecom 的两名硕士生 Do Huy-Hoang 和 Vo Thanh Phuc 的额外帮助下开发的。这项工作部分由 BigFoot 项目资助,该项目是由 EC 资助的研究项目,协议编号为 n. 317858。

相关资源