所以,我有单词列表,我需要知道每个单词在每个列表中出现的频率。使用“.count(word)”可以,但是太慢了(每个列表都有数千个单词,而我有数千个列表)。
我一直在尝试用 numpy 加快速度。我为每个单词生成了一个唯一的数字代码,所以我可以使用 numpy.bincount(因为它只适用于整数,而不适用于字符串)。但我得到“ValueError:数组太大”。
所以现在我正在尝试调整 numpy.histogram 函数的“bins”参数,使其返回我需要的频率计数(不知何故 numpy.histogram 似乎对大数组没有问题)。但到目前为止还不好。有没有人碰巧以前做过这个?甚至可能吗?有没有我看不到的更简单的解决方案?