r - 如何获取已经存在于另一个文件中的文档中的单词数？

Question

我正在研究文本挖掘领域，并且是新手。我是一个文件，其中包含一个单词列表，其相应的权重如下所示：

                  Malfunction         Weight
                  malformed             1
                  unformed             0.9
                  intensive            0.8
                  malfunctioned        0.7
                  front                0.6
                  icu                  0.5
                  injury               0.4
                  care                 0.3
                  disease              0.2
                  diagnosis            0.1

现在我想用一个文档检查列表中的每个单词，并检索文档中每个术语的出现次数。任何人都可以告诉如何在 R 中做同样的事情吗？

我使用了 tm 包，但我不想做术语文档矩阵。首先我需要找到与上面匹配的单词，然后我需要找到这些单词在每个文档中出现的次数

score 1 · Accepted Answer

如果您需要更基本的介绍，我推荐这本书

如果您只想计算这十个单词，您可以使用：

length(document.words.v[which(document.words.v=="malformed")])

对于每个单词

r - 如何获取已经存在于另一个文件中的文档中的单词数？

1 回答 1

Related

Reference