内容摘要:据美国《物理学家组织》(phys.org)网站报道,西班牙巴塞罗那自治大学数学研究中心的研究者最近使用数学和统计学的专业知识,对齐夫定律(Zipf's law)进行了严格的研究。他们使用了古登堡计划(the Project Gutenberg)的数据库——古登堡计划是一项将版权过期的英语书籍电子化的互联网计划,包含3万多篇英语文本,可以免费获取。这么大规模的研究在该领域前所未有,此前的研究大多只采用几十篇文本的数据集。
关键词:定律;词频;词频分布;分布规律;数学工具
作者简介:
环球科技报道 据美国《物理学家组织》(phys.org)网站报道,西班牙巴塞罗那自治大学数学研究中心的研究者最近使用数学和统计学的专业知识,对齐夫定律(Zipf's law)进行了严格的研究。他们使用了古登堡计划(the Project Gutenberg)的数据库——古登堡计划是一项将版权过期的英语书籍电子化的互联网计划,包含3万多篇英语文本,可以免费获取。这么大规模的研究在该领域前所未有,此前的研究大多只采用几十篇文本的数据集。
分析结果表明,如果除去少数只出现了一两次的词语,有55%的文本完全地符合齐夫定律,而如果考虑所有的词语,仍然有40%的文本完全符合齐夫定律。该研究的负责人科拉尔(Á.Corral)称,如果进一步忽略只出现3至5次的词语,符合齐夫定律的文本数还会更多。
研究者使用古登堡数据库(包含31075本书)对齐夫定律最常见的三种表述形式进行了验证,发现所有作品,有的只有100个字,有的则有100多万字,它们中的超过40%都符合三种表述中的一种,结论具有统计显著性(p>0.05)。“虽然齐夫定律会引发一些争议,但它总是能在具体的例子中找到依据,”科拉尔说,“如今,在大数据和高性能计算机的时代,我们需要对它进行大规模的分析,这项研究就是关键的一步。”
齐夫定律是美国语言学家齐夫(G.Zipf)在对莎士比亚等作家的作品进行数理统计后于1935年提出的词频分布定律。该定律发现了在按频率递减顺序排列的频率词表中,单词的频率与它的序号之间存在“幂律”(power law)关系,即如果把单词按使用频率排序,那么使用频率与序号之间几乎恰好成反比。用通俗语言表述齐夫定律,就是说如果把一段文字中的所有词语按出现频率从高到低排列起来,排第二的词语其出现频率就约为第一的一半,排第三的词语出现频率就约为第一的三分之一,以此类推,排第n的词语出现次数约为第一的1/n。







