2

我有一系列 .json 文件,每个文件都包含从 500 到 10,000 条推文(每个 3-40 MB)中捕获的数据。我正在尝试使用 rtweet 的parse_stream()函数将这些文件读入 R 并将推文数据存储在数据表中。我尝试了以下方法:

tweets <- parse_stream(path = "india1_2019090713.json")

没有错误消息并且该命令创建了一个tweets对象,但它是空的 (NULL)。我已经用其他 .json 文件尝试过这个,结果是一样的。有没有人遇到过这种行为/有什么明显的我做错了吗?我将不胜感激对 rtweet 新手的任何建议!

我正在使用 rtweet 版本 0.6.9。

非常感谢!

4

1 回答 1

0

作为更新和部分答案:我在原始问题上没有取得进展,但我使用 jsonlite 包取得了更大的成功,它能够充分读取包含 Tweet 数据的大型复杂 .json 文件。

library(jsonlite)

我使用了这里fromJSON()详述的功能。我发现我需要编辑原始 .json 文件以匹配所需的结构,用方括号 ([ ]) 开始和结束文件,并在每个推文末尾的每个换行符之前添加一个逗号。然后:

tweetsdf <- fromJSON("india1_2019090713.json", simplifyDataFrame = TRUE, flatten = TRUE)

simplifyDataFrame确保内容保存为每个推文一行的数据框,并将flatten大多数嵌套的推文属性折叠为每个子值的单独列,而不是生成充满笨重列表结构的列。

于 2019-11-04T11:35:23.827 回答