二八定律又名帕累托定律,也叫巴莱多定律、80/20定律、最省力的法则、不平衡原则等,是19世纪末20世纪初意大利经济学家帕累托发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%的尽管是多数,却是次要的,因此又称二八法则。
二八定律也同样适用于互联网用户访问,即大部分用户都是访问互联网的少量热点内容,大部分内容访问的人是很少的。
通过对互联网用户访问行为的进一步分析,人们发现,内容访问近似符合 Zipf 定律(Zipf’s, law)。这个定律是美国语言学家Zipf发现的,他在 1932年研究英文单词的出现频率时,发现如果把单词频率按从高到低的次序排列,每个单词出现的频率和它的符号访问排名存在简单反比关系,即:
经过对数变换,可以转换成:
这个公式可以表现成一条斜率为−a的直线。
这里r表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率,单词频率分布中C约等于0.1,a约等于1。
后人将这个分布称为齐普夫分布,这个分布是一个统计型的经验规律,描述了这样一个定理:
只有少数英文单词经常被使用,大部分的单词很少被使用。这个定理也在很多分布里面得到了验证,比如人们的收入、互联网的网站数量和访问比例、互联网内容和访问比例(其他分布两个常数有所不同,a越大,分布越密集,对于VoD来说某些时候符合双Zipf分布)。
齐普夫分布可以看成是二八定律的数学抽象函数。
下面是某个系统内容的访问分布,图 1-2 所示为热度统计曲线。可以看到,多数访问集中于少量内容上。
图1-2 热度统计曲线