0

我正在对 20 个新闻组数据集进行一些文本分析,其中一部分依赖于根据所述文章中的单词对不同文章进行分类。我目前能够做的是解析一篇单独的文章,然后编译关于它的统计数据。我可以每篇文章单独执行此操作,但合并这些文章似乎是我的失败。

我希望在 R 中能够做的事情如下:

取两个(最好是任意数量)解析词和词干词的频率数据框,并将它们合并在一起,以将两篇文章中词的频率显示为一个数据框。我希望能够在不将文章合并到一个更大的文档中的情况下做到这一点。

获取此数据框并按最高频率对其进行排序,仅显示前 50 个。

任何帮助将不胜感激!

4

1 回答 1

3

由于您没有提供任何示例数据,我只是猜测您的数据是这样的形式:

doc1 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )
doc2 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )

看看? merge。它做你可能想要的:

merge( doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2") )
于 2013-07-03T10:17:44.257 回答