使用Python简单验证文本的Zipf分布

齐普夫定律是语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证,例如著名的28定律。

我要分析文本文件中汉字的分布情况,简单验证Zipf分布。

准备要分析的文本文件

我使用一部网络小说做为样本,大小15M,编码格式为UTF-8。

Python代码

执行结果:

使用Python简单验证文本的Zipf分布
我看到了猪角名,你来猜猜看是哪部小说

使用Python简单验证文本的Zipf分布

使用Python简单验证文本的Zipf分布

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注