标准化是一切运维自动化的基础,所以自动化运维的前提条件是做好运维标准化工作。以下是自己总结的一些内容:
1、阿里云系统镜像(模板镜像命名规则)镜像一定要是干净的,如果不干净很有可能引起生产事故,包含各种服务客户端(如zabbix-agent、salt-minion)
2、系统优化标准参数、自动化一键优化脚本、做系统初始化脚本
3、操作系统命名规则zs-nginx
4.阿里云主机命令规则,方便查找服务器
5、软件安装版本标准化,
6、软件安装目录标准化,并形成文档化
7、应用系统名称命名规则、应用系统数据库命名规则
8、监控模板标准化、特殊监控特殊对待
9、综合管理机器 前期规划性能争取比较好,因为后期可能有很大性能需求
10、日志备份机器,磁盘以及性能尽量可能较高
11、ip地址管理(可以写脚本生产一个动态更新表)
12、自动化工具salt、ansible、Jenkins
13、监控标准化(基础cpu、内存、磁盘、网络流量、系统连接数、业务指标监控)
14、资源统计表标准化模板(云端ecs、slb、redis、rds...、专人负责统计、该员工负责资源开通、升配、降配)
15、运维各类实施文档(各种中间件部署、升级、问题解决)
16、安全审计-堡垒机或安全审计日志(密码+私钥访问)
17、权限标准化管理(专人负责)
18、自动化脚本编写 避免重复性工作,如创建用户
19、安全防护,云端ddos、waf,应用端如nignx有防sql注入、防爬虫等安全配置
20、端口统一规划表,需要统一管理
21、新开通资源第一时间增加监控、日志收集
22、运维制度或标准最小单元化,标准化最小单元化
其他:对于公司运维人员,一定要存在备份人员,杜绝某些系统只有某一位运维同学熟悉。这样容易导致人员离职,系统交接不到位,系统维护困难以及踩坑
23、日常工作文档化,抄送相关人员知悉
具体文档可以参考我的日常工作文档