我正在使用包rtweet来搜索包含关键字列表的所有推文(请参见下面的示例代码)。我想从这些推文中提取有关它们是否包含媒体(即照片或视频)的信息,对于那些确实包含媒体的信息,请提取它。
所有这些都应该使用以下代码来工作:
Step1 - 搜索推文:
seagrasstweet30day <- search_30day(q = '(posidonia OR poseidonia OR #posidonia OR cymodocea OR cymo OR seagrass) (Gloria OR #Gloria OR temporal OR storm OR llevantada)',
n = 500,
env_name = "research")
第 2 步 - 过滤掉所有转推,只保留那些带有 media_url 而不是 NA 的转推(即带有图像的结果):
tweets_images <- seagrasstweet30day %>%
filter(is_retweet == F) %>%
filter(!is.na(media_url)) %>%
select(media_url) %>%
unnest()
第 3 步 - 下载媒体。
一旦我有了这个数据集,我就会使用函数download.file()
.
问题:大多数(但不是全部!!)包含媒体的推文在步骤 2 中被过滤掉,因为从search_30day()
函数获得的 media_url 列是NA
. 关于为什么包含媒体的推文不显示其 media_url 的任何想法?感谢您的任何反馈!
更新:我正在使用 twitter 开发人员“沙盒”帐户(免费)进行此操作。也许某些功能(例如提取 media_url)仅适用于付费帐户?但是,我确实看到NA
了一小部分推文的非 media_url ......