python - 为什么我无法使用 TWARC/hydrator 应用程序在 24000 个推文 ID 中重新水化超过 18 条推文？有人知道更好的方法吗？

Question

我对推文文本的补水有疑问。任何帮助，将不胜感激。

这是我的数据来源；这是关于电晕推文的：

数据集来源

我已经从中下载了照片中的数据集（名为 01-feb-2020）

然后，我过滤这些数据以显示来自“GB”的唯一推文，几乎是 24000 条推文

我已经使用 twarc 来补充我的推文文本，如下所示：

首先，使用 pip 安装 twarc

然后，在命令行中输入：twarc configure

然后，消费者间密钥和秘密密钥

然后，写一个命令：

twarc hydrate id.txt > tweet_hydrated.jsonl

但是，我从 24000 条推文 id 中只得到 18 条推文

我也使用了 hydrator 应用程序，但结果是一样的。我究竟做错了什么？从大量数据中提取 18 个是否合乎逻辑？任何关于滋润推文文本世界的新建议都值得赞赏。（对不起我的英语不好，我不是天真的说话者）

score 1 · Accepted Answer

Tweet ID 收集方法（复制粘贴）不正确。编写适当的代码将推文 ID 保存到文本文件后，问题已解决。

此外，Andy Piper 在我复制过去的评论部分中提到了同样的事情。

您如何从下载的 JSON 格式转换为 CSV 格式？我想知道 Tweet ID 值是否有效。– 安迪·派珀 5 小时前

我现在设法重现了这一点，并且我相信在将您的 JSON 输入转换为 CSV / Excel 到要补充的推文 ID 列表的过程中，您可能正在使用 JavaScript（？）并且推文 ID 正在失去其准确性. 线索是当我注意到我的 Excel 列中所有以 0000 结尾的推文 ID 时。您需要使用更精确的方法将推文 ID 放入 twarc

score 0 · Accepted Answer

我现在设法重现了这一点，并且我相信在将您的 JSON 输入转换为 CSV / Excel 到要补充的推文 ID 列表的过程中，您可能正在使用 JavaScript（？）并且推文 ID 正在失去其准确性. 线索是当我注意到我的 Excel 列中所有以 0000 结尾的推文 ID 时。您需要使用更精确的方法将推文 ID 放入 twarc。

python - 为什么我无法使用 TWARC/hydrator 应用程序在 24000 个推文 ID 中重新水化超过 18 条推文？有人知道更好的方法吗？

2 回答 2

Related

Reference