多年来,我多次想使用质量不同的频率列表(字符、单词、n-gram 等),但从未想出如何将它们一起使用。
当时我直觉认为只有排名而没有其他数据的列表应该是有用的。从那时起,我了解了Zipf 定律和幂律。虽然我数学不是很好,所以我并不完全理解一切。
我在 StackOverflow 和 CrossValidated 中发现了一些似乎相关的问题。但我要么没有正确理解它们,要么它们缺乏有用的答案。
我想要的是一种方法来规范一个包含完整频率数据的列表和一个只有排名数据的列表,以便我可以一起使用这两个列表。
例如带有频率数据的单词列表:
word per /million
的 50155.13
我 50147.83
你 39629.27
是 28253.52
了 28210.53
不 20543.44
在 12811.05
他 11853.78
我们 11080.02
...
...
... 00000.01
还有一个只有排名数据的单词列表:
word rank
的 1
一 2
是 3
有 4
在 5
人 6
不 7
大 8
中 9
...
...
... 100,000
如何将频率数据和排名数据归一化为可用于比较等的相同类型的值?
(这个问题中的示例列表只是示例。假设从程序员无法控制的外部来源获得更长的列表。)