MySQL随机恢复的设计思路_编程技术网-程序员技术内容聚合平台

（在说正事之前，我要推荐一个福利：你还在原价购买阿里云、腾讯云、华为云服务器吗？那太亏啦！来这里，新购、升级、续费都打折，能够为您省60%的钱呢！2核4G企业级云服务器低至69元/年，点击进去看看吧>>>)

如果没有恢复场景，备份就失去了业务价值，毕竟单纯靠业务价值一把尺子就衡量系统建设其实是不公平的，但是如果数据没有恢复成功，备份就失去了任何价值。

数据库这个圈子，其实比较垂直，能叫出名字的就是那么些人，所以数据恢复是一个很差的标签，而且删库跑路也是行不通的。

我们可以以退为进，把一些工作转变为主动。假设我有1000台数据库实例，其中从库和单实例节点有500个，那么如何保障这500个数据库实例的数据可以恢复，在可以恢复的前提下，如何提高恢复效率，然后整体上来看，如何综合提升备份效率，备份任务调度，如何通过增量来落实“一次全量，永远增量”的设计模式，这些措施都会有改进，但是对于数据恢复效率还是很难保证的。

比如下面的场景：

1)数据库参数配置不规范，/etc/my.cnf和/data/mysql_xxx/my.cnf的配置不匹配，导致实例启动失败

2)数据库版本差异化，比如主流支持是5.7，突然冒出来一个5.6的版本

3)binlog解析出错，导致后续恢复失败

4)备份集恢复出错，导致整体恢复失败

如此种种的案例数不胜数，稍有不慎，就难以恢复，而像配置类的问题，虽然可以解决，但是在紧急情况下，恢复流程失败，很难保证有良好的心态能够快速解决，所以对于恢复质量的检验是过去我们一直在犯的错误：我们一直在完善备份，但是对于恢复侧却少有关注，认为应该是可以的，恰恰是这个应该会把我们拖入被动局面。

所以我冒出来一个随机恢复的想法，还是假设有500个实例，那么这些实例如果我们一一恢复，每天的工作量是很庞大的，而且对系统的负载也很高，所以如果我们把风险和成本做一个综合，这个工作的效率和意义就会很明显。

目前的恢复主要有基于备份集恢复，基于时间点恢复，对象粒度的恢复和表结构恢复，我们通常所说的系统层恢复主要是基于备份集恢复和基于时间点恢复。

为此我设计和实现了如下的基本流程：