揭秘“阿里拔电源”游戏的戏法

2017-10-18 16:42| 发布者: 热腾网| 查看: 2019| 评论: 0

摘要: 原标题：揭秘“阿里拔电源”游戏的戏法 2017年的云栖大会，显然是一个成功的大会。因为父亲车祸，我并没有去现场。朋友圈中最热点的是“达摩院”和“专有云拔电源“。扫地僧的事情我不太懂，拔电 ...

2017年的云栖大会，显然是一个成功的大会。因为父亲车祸，我并没有去现场。

朋友圈中最热点的是“达摩院”和“专有云拔电源“。扫地僧的事情我不太懂，拔电源我倒可以说一说，揭秘一下拔电源背后的东西。

马爸爸的专有云就是私有云。私有云一直不是马老师的地盘，也没有任何技术优势。公有云提供的是快餐，而私有云是按照客户口味定制的满汉全席。私有云和公有云的价值点不一样，导致关心问题的重点也不一样。比如私有内的“热迁移”、“CPU/内存超配”等功能并不是公有云关心的重点。所以并不是一个擅长公有云的，就一定擅长私有云。2017年秋的”拔电源“就是明证，在私有云里最基本的功能，却被炒作成为“壮举”。

不能责怪媒体的记者，他们看到的演示是真的，就像大卫的魔术，外行人看热闹，看到结果，信以为真。魔术善于包装和故弄玄虚来吸引眼球，但背后的原理其实是最简单的。专有云拔电源也被阿里大师包装成了魔术。

这都是私有云的最基本功能，是通过服务器HA+应用的双活+虚拟机动态负载均衡实现的。在”顾炯的云世界“都介绍过，今天结合模魔术简单的再阐述一下。

服务器HA

物理机的HA是有2台主机构成，而且还是双胞胎。一台主机通过心跳来监控另外一台主机的状态，当发现心跳中断就接管原来主机承担的任务。如果把这台主机分别装在演示的二个机架里，一个机架断电，心跳中断，另外机架的双胞胎兄弟就能接管了，也能达到一样的演示效果。这就是我们常说的高可靠性，当然这种高可行性是要中断业务的。中断是时间操作系统或应用重启的时间，一般是分钟级别的。

虚拟机的HA其实是不要兄弟的，却需要有一个集中监控心跳、掌握全局的“老大”。“老大”监控每台虚拟机运行的心跳，当发现心跳异常的时候，会在合适的物理机上重新创建新的虚拟机、启动虚拟机。（当然应用也可以调用虚拟软件提供的API做到应用级的心跳监控。）

从业务中断时间角度上看，虚拟机和物理机的HA都是一个级别，即操作系统或应用重启的时间。虚拟比物理机有优势主要体现在投资上，虚拟机只要有集中统一的监控主机即可，并不需要像物理机一样进行冗余和购买第三方的HA软件。掉电魔术中，显然掌握虚拟机的“老大”并不在演示的断电的机架内，否则会演砸了。老大一般在一个安全的第三点，即二地三中心，其中的一个仲裁中心里。

HA提供高可靠性，但仍然会有分钟级的中断，这是不可避免的。连续性一般是通过双活/多活完成的。

应用的双活/多活

双活的实现原理更加简单，通过硬件或软件形式的负载均衡网络设备，实现业务由不同主机的分担。即每个主机都通过轮询的方式承担一样的服务，当一台或多台发生故障时由其他服务器承担故障主机的负担。所以当某个主机发生故障，剩余的服务器的压力会增加。但是这种连续性只是业务整体的连续性，并不是针对某个用户的连续性。比如当某台服务器故障的时候，刚好落在这台服务器上的用户的业务是受到影响的，只不过这个用户重新“刷新“后，又能正常使用，用户大都不会感觉出现故障而已。

在私有云内，其实还有一种基于虚拟机的完全连续性保障功能——FT。FT能做到二台主机完全一样，包括是应用执行的进程和内存的变化。当一个服务器出现故障的时候，另外一台完全无缝的接管。只是一条应用执行的指令需要等待二台服务器都执行完毕，并检查执行的结果一致以后，才能执行下一条指令。FT是牺牲了应用执行的效率和增加了投资来保障应用的可靠性和连续性，还受到虚拟机的规格限制，实际生产中用的并不多。而且相信阿里云并不具备FT的能力。

虚拟机的动态负载均衡

当一个机架上电以后，可以根据预先的配置，自动的将合适的虚拟机热迁移到新上线的服务器上，实现动态负载均衡和连续智能优化，保证所有应用需要的的资源。这些都是私有云内最基本的功能。

所以，本次魔术，就是把同一个应用部署在不同的机架里的服务器里。当一个机架断电完全就不会影响整体业务，当服务器重新加电后可以实现负载均衡的基本原因。

虚拟机的作用

其实不管是HA还是双活/多活，都和是否是虚拟机还是物理机无关。通俗点说就是没有云也一样实现。但是如果虚拟机结合HA和双活/多活的特性，结合预先的配置可以快速进行故障恢复。比如原来二个节点，4台服务器承担业务，由于坏掉一个节点，其实上就只有一个节点的2台服务器在承担服务。如果采用虚拟机的HA方式，可以快速的创建并启动另外二台服务器，在1-2分钟内恢复到原来的4台同时负担业务的情况。但我特别不理解媒体中说的为什么魔术恢复的时间需要15分钟，还比原计划缩短了45分钟。对生产来说，15分钟太长了!

存储的容错

另外再谈谈共享存储问题。这次魔术阿里可能采用了类似HCI的模式，即计算节点和存储节点合一。利用每台物理服务器的磁盘作为共享存储的持久化层，采用分布式、多副本的文件系统。这样只要确保有一个副本落在每个机架的服务器上，当任意一个机架断电就不会导致共享存储故障。短时间内的副本缺失是不会影响演示效果。长时间的缺副本运行，是有很大风险，需要快速进行副本重构。

阿里的魔术其实就是一个DEMO，用两个相邻的机架来模拟，并没有任何实际部署的价值。实际的部署，往往是在不同的城市的数据机房内。虽然实现原理还是一样，但是网络拉远以后的时延是最需要解决的问题。我们在2013年就完全实现了这些功能。具体怎么做，可以参考站内文章:

43、构建安全可靠的云计算资源池