一份全面的“容灾概要设计”是怎样的?
关于容灾设计,笔者结合自己的见解与经验,向我们具体介绍了容灾设计要考虑的出错情况、异常处理、补救措施、容灾备份、系统维护设计。
对于容灾设计方面,我这里也有一些自己的干货,写得不好,其中也有很多欠缺之处,愿朋友们看过之后能够给出很好的批评,咱们在这里相互学习、共同进步!
一、出错情况
本设计要考虑的出错情况主要是指软件运行、系统部署时可能出现的异常,包括:
- 用户不规范的输入导致的程序错误;
- 系统运行时容器崩溃;
- 用户环境和开发时环境不一致造成的程序错误;
- 编码中的逻辑错误或者漏洞导致系统报错;
- 不包括由于硬件损伤、网络中断等情况的容错处理。
二、异常处理
本系统将采用如下的一般性设计原则减少程序和用户交互过程中可能出现的错误:
1. 一致性
- 菜单选择、数据显示以及其它功能都应使用一致的格式;
- 提供有意义的反馈信息;
- 执行有较大破坏性的动作前要求确认;
- 在数据录入上进行尽可能严格的合法性检测;
- 减少在动作间必须记忆的信息数量;
- 允许用户非恶意错误,系统应保护自己不受致命的破坏;
- 提供和运行环境相关的帮助机制。
2. 本系统对于出错信息和警告应该遵循以下原则
- 信息以用户可以理解的术语描述;
- 信息应提供如何从错误中恢复的建设性意见;
- 信息应指出错误可能导致哪些不良后果,以便用户检查是否出现了这些情况或帮助用户进行改正;
- 信息应伴随着视觉上的提示,如特殊的图像、颜色或信息闪烁;
- 信息不能带有判断色彩,即任何情况下不能指责用户。
系统采用统一的异常捕获和处理机制,为了便于团队开发的一致性,统一定义错误代码和友好显示信息。开发过程中根据具体情况可以扩展错误信息,制定更加详细的错误分类和信息显示。
为规范、统一各类系统错误或业务提示信息,统一定义公共信息列表。根据信息的性质与应用范围,将公共信息分类列表如下:
三、补救措施
四、容灾备份
利用RAID5数据存储解决方案,实现实时数据备份,保障了系统的安全稳定运行。
五、系统维护设计
1. 设备运行维护
设备运行维护指对网站群网络、服务器硬件设备、网络安全设备的运行管理维护,保证硬件设备正常运行。
设备运行维护由专业的硬件工程师进行,处理日常的设备管理、运行配置等操作。
设备运行维护按照设备操作手册与要求执行。
2. 应用系统运行维护
主要负责对网站群所有应用系统软件的运行维护管理工作,一般由网站群系统管理员负责,处理应用系统日常数据维护、运行配置、软件应用异常处理等。
系统管理员将根据日志信息记录对系统进行维护处理。在该系统中,将规范统一系统日志管理,系统日志的信息级别分为一般信息、调试信息、警告信息、严重错误信息。
3. 系统安全与数据备份恢复维护
由网站群系统安全管理员负责网络硬件、软件安全管理,同时,按照规范处理日常的数据备份工作,对系统安全异常情况,立即进行恢复应急处理。
日常数据备份内容一般包括数据库数据备份和网站用户上传的文件数据备份。
系统安全管理员严格按照安全管理制度进行日常管理工作。
4. 网站信息内容管理维护
由专业的内容信息维护人员负责网站内容信息管理、策划,按照网站日常运行需求,策划网页内容建设。
另外请路过的朋友们多多支持哈,笔者在这里先谢谢了,以后会有更多优质的文章在这个平台上进行发布,请尽请期待呦!
本文由 @卧枕江山 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: