问题标签 [rtweet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 AWS Ubuntu 服务器中为 R 设置 rtweet
对于我的本地计算机,我已经设法完成了 Twitter 应用程序的身份验证过程,如http://rtweet.info/中所述(“API 授权”部分。):
- 第一次发出 API 请求时——例如,search_tweets()、stream_tweets()、get_followers()——将打开一个浏览器窗口。
- 登录您的 Twitter 帐户。
- 同意/授权 rtweet 应用程序。
但是,我确实在 AWS 上的 Ubuntu 服务器的流程上遇到了困难。由于我没有图形界面(仅限ssh访问),我只能尝试通过以下过程:
- 在我的电脑上,将浏览器指向 AWS 服务器的地址,以便运行安装在 AWS 服务器上的“RStudio 服务器软件”。这样做,最后一步 - 重定向 - 导致浏览器消息显示“无法连接 Firefox 无法在 localhost:1410 建立与服务器的连接。”;R控制台一直挂着等待输入:
- 在 Ubuntu 服务器的外壳上,我尝试并未能通过产生以下错误消息的过程:"> rt <- search_tweets("Mark Fletcher", n = 5000, include_rts = FALSE) httpuv::startServer(use$) 中的错误host, use$port, list(call = listen)) : 创建服务器失败”
是否有另一种方法可以做到这一点,而不必依赖在我们想要进行授权的计算机上本地运行的浏览器?
谢谢,
奥利
r - Rtweet 软件包安装问题
最近 Twitter 将其字符限制从 140 更改为 280。我正在尝试安装 rtweet 软件包,因为 TwitteR 仅显示整个推文的前 140 个字符。
运行命令:
导致以下控制台输出:
我怎么解决这个问题?
r - rtweet 抓取一个推特状态的整个线程?
我正在尝试使用 R 来抓取 Twitter 状态的整个对话线程。我正在探索 rtweet,这是在 R 中提取 twitter 数据的最新包。我找不到任何东西。我想知道是否有人可以帮助谢谢
r - 如何使用 rtweet 包继续下载推文,同时还能使用 R Studio 执行其他任务
刚刚安装了 rtweet 包并开始下载推文。我想在接下来的 20 周内收集包含“腐败”一词的推文。然而,推文的流式传输和下载让 R 很忙,我不能将它用于其他任务。有没有办法停止流式传输并再次继续,在我停止的时间点继续?
我当前的代码如下所示,并且运行良好:
另一个相关的问题是,我是否可以在这 20 周内每天随机抽取推文样本。我有一种感觉,如果我继续下载所有包含“腐败”一词的推文,我最终会得到一个比我的本地内存大几倍的数据库(但这也可能是一个非常错误的估计)。
非常感谢您的帮助!:)
r - rate_limit() 返回错误的重置时间
rate_limit()
fromrtweet
在列中返回错误值reset
。它没有显示 15,而是显示 14.59 左右的值。它在 14.59 和 14.61 之间变化。我认为这不是rtweet
软件包的问题,但可能是我的系统或我在计算机上设置的时间。
我不知道可能是什么原因。我设法找出的唯一一件事是,当我Sys.time
在我的计算机和其他rate_limit
运行良好的计算机上使用时,有 25 秒的差异。25 秒大约是一分钟的 41%,所以这似乎是个问题,但我不知道如何解决。在 SessionInfo 下方:
r - 计算一个字符变量中多个字符串的出现次数
我有一个用 rtweet 下载的推文数据集。我想看看变量中出现了多少次三个不同的字符串x$mentions_screen_name
。
我要做的关键是计算“A”出现的次数,然后是“B”,然后是“C”。因此,我复制此内容的尝试如下。
filtering - 使用 rtweet 包从抓取的推文中过滤数据
在数据框中是一列“geo_coords”。视觉扫描的大多数是 c(NA,NA)。
我安装了 dplyr(其他软件包也很好),我想识别任何不等于 c(NA,NA) 的行。
这没有用。
r - R:自动在云端抓取和存储 Twitter 数据
我是一名 R 用户,正在从事一个项目,该项目涉及从 Twitter 数据中获取见解(更具体地说,使用rtweet
包抓取 Twitter 数据,并对这些数据进行一组分析)。此外,我基于这些数据构建了一个 Shiny 应用程序,用于可视化目的。
我需要进一步输入的地方
今天,我抓取的 Twitter 数据本地存储在我的笔记本电脑上。但是我想以不同的方式做到这一点。理想情况下,我希望能够实现以下目标 -
1) 数据从 Twitter 上使用rtweet
包抓取并直接存储在云平台上(例如 AWS 或 Microsoft Azure)。
2)我想为这个抓取过程定义一个周期(例如:每两天一次)。我想通过一些调度工具来实现这一点。
3) 最后,我希望我的 Shiny 应用程序(托管在 shinyapps.io 上)能够与这个云平台通信并检索存储在其中的推文进行分析。
我在互联网上搜索了解决方案,但还没有找到任何直接的解决方案。
如果有人有这样做的经验,您的意见将不胜感激。
r - R – 在 Twitter 句柄列表上使用循环来提取推文并创建多个数据框
我有一个 df,其中包含我希望定期抓取的 Twitter 句柄。
我的方法论
我想运行一个for
循环,循环遍历我的 df 中的每个句柄并创建多个数据帧:
1)通过使用该rtweet
库,我想使用该search_tweets
功能收集推文。
2)然后我想将新推文合并到每个数据帧的现有推文中,然后使用该unique
功能删除任何重复的推文。
3) 对于每个数据框,我想添加一列,其中包含用于获取数据的 Twitter 句柄的名称。例如:对于使用句柄@BarackObama 获得的推文数据库,我想要一个使用句柄Source
@BarackObama 调用的附加列。
4) 如果 API 返回 0 条推文,我希望忽略步骤 2)。很多时候,当 API 返回 0 条推文时,我会在尝试将空数据框与现有数据框合并时收到错误消息。
5)最后,我想将每次抓取的结果保存到不同的数据框对象中。每个数据框对象的名称将是其 Twitter 句柄,小写且不带@
我想要的输出
我想要的输出是 4 个数据帧,katyperry
, justinbieber
, cristiano
& barackobama
。
我的尝试
但是,如果 API 返回给定句柄的 0 条推文,我无法弄清楚如何在我的 for 循环中包含忽略连接步骤的部分。
此外,我的 for 循环不会在我的环境中返回 4 个数据帧,而是将结果存储为Large list
我发现一篇帖子解决了一个与我面临的问题非常相似的问题,但我发现很难适应我的问题。
您的意见将不胜感激。
编辑:我在我的方法中添加了第 3 步),以防您也能提供帮助。
r - 通过 rtweet 获取多个 Twitter 用户的关注者
我正在使用 Michael W. Kearney 的 rtweet 包,并试图获取多个用户的关注者列表。到目前为止,如果我希望一次废弃一个用户的追随者,而不管他/她可能拥有多少追随者,它的效果很好。
但是对于我的项目,我必须废弃 155 个配置文件,因此我想知道是否有一种功能或方法可以让我为所有用户编写一个命令?到目前为止,当我尝试使用多个用户时,我收到错误消息说我一次只能使用一个用户。
编辑:两条重要的信息 - 所需的输出是每个用户关注者的 155 列的数据集,我可以将其导出/写入为 csv 或用作数据框。最后,在提出任何解决方案时,请记住,如果我要使用任何apply
家庭功能,我最终会得到列表(根据 Amar 的建议答案),但问题是将列表转换为 data.frame 并且因为列的长度不等我无法使用as.data.frame()
函数。
有什么想法或方法吗?提前致谢。