VPS上的cpu load average

本文原创，转载请注明来源：http://blog.1or9.com/post/227.html

我经常为这个问题困惑，所以研究了一段时间。

首先：cpu load average 不是cpu负载。那个数字表示的意思是：cpu任务队列的长度。以下讨论基于1个核，如果是N核，情况完全一样。只是放大N倍。

如果cpu load average 比1小，则说明：CPU队列里面没有任务排队，也就是CPU非常闲。问题是如果这个数字比1大，就说明负责太高，CPU承受不了吗？不是的！如果这个数字稳定在一个数值不持续变大，恰恰说明CPU可以承受这个负载。就像超市排队check out，如果顾客的队伍一直保持在5个人或者10个人而不持续增长，说明这个柜台的营业员还是能够来得及处理的。唯一的问题就是每个用户可能要花一点时间排队。那到底要排队多少时间呢？如果CPU平均处理一个任务的时间是1毫秒，如果队列是10，也就是说每个任务的处理时间从1毫秒变成11毫秒（10毫秒的等待时间+1毫秒的真正处理时间）。从用户角度来说，1毫秒和11毫秒是区别不出来的。但是如果我们假设CPU平均处理一个任务的时间是1秒，如果队列是10，也就是说每个任务的处理时间从1秒变成11秒（10秒的等待时间+1秒的真正处理时间）。从用户角度来说，1秒和11秒的区别是非常大的。

结论就是：有的机器cpu load average是几十，但是一点慢的感觉都没有。但是有的机器cpu load average 才5就感觉非常慢。

回到VPS的情况，一个机器上有多个虚拟系统（VPS），各自有自己的任务队列，但是公用CPU资源。这里只讨论CPU资源是Equal Share的那种，有的VPS的CPU是按照用户来分频率或者CPU Core的不在讨论范围内。

假设一共只有2个VPS，每个VPS里面的任务平均处理时间是1毫秒，任务产生的速度都是10毫秒1个。也就是1秒钟共有200个任务产生，处理这些任务只需要200毫秒的时间。套用非常流行的一句话，这个机器的CPU闲的蛋疼（80%的时间是没事干）。

现在一个VSP保持不变，另外一个VPS变成1秒产生一个任务，并且他任务变的复杂了，所以平均处理时间要0.5秒。结果会如何？？首先对这个机器而言仍然很闲，1秒钟共有101个任务（100+1），处理这些任务需要600毫秒（0.5秒+100毫秒），所以40%的时间是空的。

看看cpu load average吧。。在某个特定的时刻，CPU正在处理第2个VPS的0.5秒的那个任务，而第1个VPS还在以10毫秒每个的速度产生任务。极端情况，你可以在第一vps上看到cpu load average是50。而第二个vps的cpu load average基本不会高于2（整整2秒CPU时间都给第1个VPS占着，可能吗）。从用户角度说，第一个vps的用户觉得速度变慢了，第二个vps的用户基本感觉不到。从主机提供商的角度，觉得问题一定出在第一vps那里，他会把第一vps重启甚至停掉。

真正的VPS情况，要复杂的多，首先不是单核，而且不是2个VPS，一般都是几十个。并且那种突发性的耗CPU的任务是随机的。象上面的例子，可能某1分钟，第2个VPS变成1秒产生一个任务，平均处理时间要0.5秒，而下1分钟又变回原来的了。这就使得第一个VPS突然出现一个很高的cpu load average，然后慢慢小下去。这样的现象我是经常看到的。其实压根和这个vps一点关系都没有。完全是由于别的vps引起的。

结论：有钱还是用独立服务器吧。

One reply on “VPS上的cpu load average”

Leave a Reply