-2

我正在研究文本挖掘领域,并且是新手。我是一个文件,其中包含一个单词列表,其相应的权重如下所示:

                  Malfunction         Weight
                  malformed             1
                  unformed             0.9
                  intensive            0.8
                  malfunctioned        0.7
                  front                0.6
                  icu                  0.5
                  injury               0.4
                  care                 0.3
                  disease              0.2
                  diagnosis            0.1

现在我想用一个文档检查列表中的每个单词,并检索文档中每个术语的出现次数。任何人都可以告诉如何在 R 中做同样的事情吗?

我使用了 tm 包,但我不想做术语文档矩阵。首先我需要找到与上面匹配的单词,然后我需要找到这些单词在每个文档中出现的次数

4

1 回答 1

1

如果您需要更基本的介绍,我推荐这本书

如果您只想计算这十个单词,您可以使用:

length(document.words.v[which(document.words.v=="malformed")])

对于每个单词

于 2015-09-22T09:04:42.567 回答