我正在使用 TwitteR 包(特别是searchTwitter
函数)以某种csv
格式导出包含特定主题标签的所有推文。
我想分析他们的文本并发现其中有多少包含我刚刚保存在一个名为importantwords.txt
.
我怎样才能创建一个函数,它可以返回多少条推文包含我在文件中写的单词的分数importantwords.txt
?
我正在使用 TwitteR 包(特别是searchTwitter
函数)以某种csv
格式导出包含特定主题标签的所有推文。
我想分析他们的文本并发现其中有多少包含我刚刚保存在一个名为importantwords.txt
.
我怎样才能创建一个函数,它可以返回多少条推文包含我在文件中写的单词的分数importantwords.txt
?
我认为最好的选择是使用 tm 包。
http://cran.r-project.org/web/packages/tm/index.html
这个家伙用它来创建带有信息的词云。查看他的代码可能也会对您有所帮助。
http://davetang.org/muse/2013/04/06/using-the-r_twitter-package/
如果您的重要词只是为了避免“the”“a”之类的东西,这将很好。如果它特别针对某些东西,您需要使用您的单词列表遍历语料库以检索计数。
希望它可以帮助内森
伪代码:
> for (every word in importantwords.txt):
> int i = 0;
> for (every line in tweets.csv):
> if (line contains(word)):
> i = i+1
> print(word: i)
这符合你想要的吗?