0

我正在使用 TwitteR 包(特别是searchTwitter函数)以某种csv格式导出包含特定主题标签的所有推文。

我想分析他们的文本并发现其中有多少包含我刚刚保存在一个名为importantwords.txt.

我怎样才能创建一个函数,它可以返回多少条推文包含我在文件中写的单词的分数importantwords.txt

4

2 回答 2

0

我认为最好的选择是使用 tm 包。

http://cran.r-project.org/web/packages/tm/index.html

这个家伙用它来创建带有信息的词云。查看他的代码可能也会对您有所帮助。

http://davetang.org/muse/2013/04/06/using-the-r_twitter-package/

如果您的重要词只是为了避免“the”“a”之类的东西,这将很好。如果它特别针对某些东西,您需要使用您的单词列表遍历语料库以检索计数。

希望它可以帮助内森

于 2014-01-02T19:25:21.667 回答
0

伪代码:

> for (every word in importantwords.txt):
>     int i = 0;
>     for (every line in tweets.csv):
>         if (line contains(word)):
>             i = i+1
>     print(word: i)

这符合你想要的吗?

于 2014-01-02T19:23:11.943 回答