自愈 SIG
目录
自愈 SIG
状态: 已成立
原始提案: http://lists.openstack.org/pipermail/openstack-sigs/2017-September/000054.html
使命
这个 SIG 旨在协调使用和开发几个 OpenStack 项目,这些项目可以以各种方式组合,以策略驱动的方式管理 OpenStack 基础设施,通过自动修复服务来响应故障和其他事件。
背景
云计算愿景的最大承诺之一是基础设施可以以策略驱动的方式进行管理,通过自动修复和优化服务来响应故障和其他事件。 大多数实现这种架构所需的组件已经存在于 OpenStack 中
- 单个服务的 HA
- Monasca: 监控
- Aodh: 告警
- Congress: 基于策略的治理
- Mistral: 工作流
- Senlin: 集群服务
- Vitrage: 根本原因分析
- Watcher: 优化
- Masakari: 计算平面 HA
- Freezer-dr: 计算平面 HA
- Heat: 编排(通常用于云应用程序,但也可以通过 TripleO 部署云基础设施,并且 将能够部署 Vitrage 模板)
- Barometer: NFV 的监控和业务保障
- Doctor: NFV 的故障管理和维护
- Fault Genes 工作组: 故障分类和恢复策略
- Craton: 舰队管理
- Kolla:容器化的 OpenStack 部署工具
然而,社区内尚未制定明确的策略来协调所有这些组件。 本 SIG 旨在解决这个问题。
范围
原始提案 将 SIG 的范围定义为云基础设施的自愈,因此目前主要对开发人员和操作员感兴趣,而不是最终用户。 然而,未来我们也可以将范围扩展到云应用程序的自愈(例如,参见 https://openstack.org/videos/barcelona-2016/building-self-healing-applications-with-aodh-zaqar-and-mistral),在这种情况下,最终用户也可以觉得 SIG 有用。
该范围不仅可以包括故障和服务降级的自愈,还可以包括 Watcher 执行的自动优化。 然而,这将引发“自愈”这个名称并不完美的问题,因为“愈合”意味着某物生病/损坏,而优化即使在云完美健康时也会发生。 在 悉尼论坛会议 上,人们决定最好务实,从小处着手,专注于硬性故障。 如果需要,可以稍后轻松引入优化。
在存在多种解决方案来解决相同自愈用例的情况下,SIG 的范围不包括通过推荐一种解决方案或项目而不是另一种解决方案来表达意见。 SIG 打算保持项目无关性,而只是呈现有关当前可行性和未来开发意图的事实。
目标
- 记录描述可以使用现有项目解决哪些用例的堆栈。(如果其中一些堆栈已经在实际环境中进行了测试,则更好。)
- 记录项目之间已存在的技术层面的集成。
- 收集操作员的实际用例,包括他们想要完成但尚未能够完成的用例。
- 根据收集的用例,进行差距分析,以帮助塑造这些项目的未来方向,例如通过针对这些差距的规范。
- 进行重叠分析,以帮助确保项目范围正确且集成良好,而不会重复任何重要工作。
- 确保操作员和开发人员定期就此主题进行沟通,以便项目开发朝着满足实际需求的方向发展。
受众
- 正在使用 OpenStack 上述项目中工作的开发人员
- 负责设计 OpenStack 部署的架构师
- 负责部署和管理 OpenStack 的操作员
随着未来范围的扩大,我们可能还想包括
- 负责设计在 OpenStack 云上运行的应用程序的架构师
- 负责开发在 OpenStack 云上运行的应用程序的开发人员
- 在 OpenStack 云上运行的应用程序的最终用户
参与方式
从功能请求到设计规范,我们重视所有参与。 请参阅 SIG 的 贡献指南。
文档
官方 SIG 文档 包含自愈用例、跨项目规范,并且未来可能还包含跨项目代码。
文档是从 self-healing-sig git 仓库 生成的;您还可以查看 相关的变更评审。
社区基础设施 / 资源
- Wiki: 此页面
- SIG StoryBoard(用于权威地列出 SIG 内所有正在进行的工作)
- 文档(见上文)
- openstack-discuss 邮件列表;使用
[self-healing]标签 - 一个现有自愈项目集成点的列表
- IRC 频道: #openstack-self-healing 在 Freenode IRC 上
- IRC 会议(包括过去会议的日志)
- 补丁评审(gerrit)
SIG 负责人
- Adam Spiers
- 联合负责人: Eric Kao
即将举行的活动
- 丹佛峰会 / 论坛活动,2018 年 5 月
过去举行的活动
- 柏林论坛活动,2018 年 11 月
- 丹佛 PTG,2018 年 9 月
- 在温哥华峰会举行的各种活动
- BoF 会议,5 月 24 日星期四,下午 1:50-2:30。 话题记录在 YVR-self-healing-brainstorming etherpad 中。
- 使用 Vitrage 进行云监控 – 实践实验室
- Vitrage - 项目更新
- 闭环:VNF 端到端故障检测和自动修复
- 使用 Vitrage、Kubernetes、Zabbix 和 Prometheus 进行主动根本原因分析
- Vitrage - 项目入职
- Masakari - 项目更新
- Masakari - 项目入职
- Congress - 项目更新
- Mistral - 项目更新
- Mistral - 项目入职
- Monasca - 项目更新
- Monasca - 项目入职
- Barometer 超越业务保障:OPNFV 及其他领域的监控即服务
- 在伦敦 OpenStack 会议上进行的演示/讨论,2018 年 3 月
- 东京 Ops 会议,2018 年 3 月
- 都柏林 PTG 会议,2018 年 2 月
- 悉尼论坛会议,2017 年 11 月
- 丹佛 PTG 会议,2017 年 9 月
项目联络人
以下人员已志愿担任 SIG 与他们关注的各个项目之间的联络人。记录这些接口点的目的是鼓励双向协助
- 如果有人正在处理自愈用例,需要特定项目的帮助,他们应该更有机会找到具有知识和兴趣帮助他们的该项目中的某人。
- 当项目添加可以使自愈用例受益的新功能时,他们可以主动通知 SIG。
作为防止电子邮件爬虫的一种小措施,电子邮件保存在 https://ethercalc.openstack.org/docID 中,其中 docID 为 e6retozlgrf8。 此列表的持续工作记录在 https://etherpad.openstack.org/p/self-healing-contacts 中
| 项目 | 联系方式 | 电子邮件 | IRC 用户名 |
|---|---|---|---|
| Ansible (Openstack) | Jean-Philippe Evrard | evrardjp | |
| Aodh | |||
| Cinder | |||
| Congress | Eric Kao | ekcs | |
| Craton | |||
| Fault Genes 工作组 | Nematollah Bidokhti | ||
| Freezer-DR | Saad Zaher | szaher | |
| Heat | Rico Lin | ricolin | |
| Kolla | |||
| Masakari | Adam Spiers | aspiers | |
| Mistral | Dougal Matthews | d0ugal | |
| Monasca | Witold Bedyk | witek | |
| Neutron | |||
| Nova | |||
| OPNFV | Georg Kunz | georgk | |
| OPNFV Barometer | Sunku Ranganath | sunku-ranganath | |
| OPNFV Doctor | Tomi Juvonen | tojuvone | |
| Senlin | Qi Ming Teng | Qiming | |
| Senlin | XueFeng Liu | XueFeng | |
| Senlin | Yuanbin Chen | chenyb4 | |
| TripleO | Michele Baldessari | bandini | |
| TripleO | Damien Ciabrini | ||
| Vitrage | Eyal Bar-Ilan | eyalb1 | |
| Watcher | Alexander Chadin | alexchadin |
历史记录
SIG 的想法源于长期致力于统一 OpenStack HA 社区围绕 实例 HA 的单一解决方案 的努力,并意识到这只是许多自愈用例之一,为了使 OpenStack 基础设施稳健和高性能。
第一次会议在丹佛 PTG 上举行,并在 此 etherpad 中记录。 SIG 正式提出 是这次会议的结果。
悉尼论坛会议 提出、接受,并 举行,之后 SIG 正式成立。
更详细的历史记录在 此博客文章 中。