我正在做一些文本处理,我有兴趣根据单词和/或短语的频率来查找和评分文本段落,理想情况下使用 Ruby。
问题的一个例子是:我有“苹果”、“香蕉”、“水果沙拉”和“橙子”。该列表可能有数千个单词和/或短语长。
我有一段文本要搜索:
我有一套苹果、苹果电脑和 Apple.com 上的帐户,但从来没有水果沙拉。为什么他们从未发布过兼具橙子功能的苹果电脑,这让我无法理解。
这会吐出一个数组,上面写着:
苹果 4 橙色 1 香蕉 0 水果沙拉 1
理想情况下,我可以应用不同的权重,例如域“apple.com”获得两分等。
是否有对此特别有用的库?