0

我对推文文本的补水有疑问。任何帮助,将不胜感激。

这是我的数据来源;这是关于电晕推文的:

数据集来源

我已经从中下载了照片中的数据集(名为 01-feb-2020)

我的数据集的照片

然后,我过滤这些数据以显示来自“GB”的唯一推文,几乎是 24000 条推文

我的推文 ID 总数

我已经使用 twarc 来补充我的推文文本,如下所示:

首先,使用 pip 安装 twarc

然后,在命令行中输入:twarc configure

然后,消费者间密钥和秘密密钥

然后,写一个命令:

twarc hydrate id.txt > tweet_hydrated.jsonl

但是,我从 24000 条推文 id 中只得到 18 条推文

我能补水的所有东西

我也使用了 hydrator 应用程序,但结果是一样的。我究竟做错了什么?从大量数据中提取 18 个是否合乎逻辑?任何关于滋润推文文本世界的新建议都值得赞赏。(对不起我的英语不好,我不是天真的说话者)

4

2 回答 2

1

Tweet ID 收集方法(复制粘贴)不正确。编写适当的代码将推文 ID 保存到文本文件后,问题已解决。

此外,Andy Piper 在我复制过去的评论部分中提到了同样的事情。

您如何从下载的 JSON 格式转换为 CSV 格式?我想知道 Tweet ID 值是否有效。– 安迪·派珀 5 小时前

我现在设法重现了这一点,并且我相信在将您的 JSON 输入转换为 CSV / Excel 到要补充的推文 ID 列表的过程中,您可能正在使用 JavaScript(?)并且推文 ID 正在失去其准确性. 线索是当我注意到我的 Excel 列中所有以 0000 结尾的推文 ID 时。您需要使用更精确的方法将推文 ID 放入 twarc

于 2020-08-05T18:24:21.573 回答
0

我现在设法重现了这一点,并且我相信在将您的 JSON 输入转换为 CSV / Excel 到要补充的推文 ID 列表的过程中,您可能正在使用 JavaScript(?)并且推文 ID 正在失去其准确性. 线索是当我注意到我的 Excel 列中所有以 0000 结尾的推文 ID 时。您需要使用更精确的方法将推文 ID 放入 twarc。

于 2020-08-06T12:21:45.743 回答