跳转到: 导航, 搜索

Sahara/ClusterHA

总结

它应提供系统级别的HA。因此,即使在Hadoop配置过程中某个组件发生故障,系统也应能够无缺陷或错误地完成Hadoop配置。

发布说明

当实现此功能时,系统应能够无缺陷或错误地完成Hadoop配置。

用户故事

  • 操作员通过savanna web获取失败的集群列表
  • 操作员点击恢复图标
  • 该集群将通过此操作重新创建。

设计

ClusterHA1.png
ClusterHA2.png

实现

  • 检查集群状态
    • 实例(是否启动?是否可访问?)
    • 卷的创建、挂载和附加
    • ambari服务器/代理的安装和配置
  • 如果生成错误,将执行以下步骤。
    • 更新ClusterHA模块使用的数据库。(表名:ClusterHA)
    • 删除一个实例
    • 分离一个卷并删除一个卷
    • 跳转返回该值(cluter_id, status)
  • 恢复集群创建

代码变更

  • service/api.py
  • service/instances.py
  • service/volumes.py
  • plugins/hdp/hadooserver.py
  • plugins/hdp/ambariplugin.py
  • conductor/api.py
  • conductor/manager.py
  • db/api.py
  • db/sqlalchemy/api.py
  • db/sqlalchemy/models.py

...等等...

测试/演示计划

This need not be added or completed until the specification is nearing beta. 

未解决的问题

待定