我对推文文本的补水有疑问。任何帮助,将不胜感激。
这是我的数据来源;这是关于电晕推文的:
我已经从中下载了照片中的数据集(名为 01-feb-2020)
然后,我过滤这些数据以显示来自“GB”的唯一推文,几乎是 24000 条推文
我已经使用 twarc 来补充我的推文文本,如下所示:
首先,使用 pip 安装 twarc
然后,在命令行中输入:twarc configure
然后,消费者间密钥和秘密密钥
然后,写一个命令:
twarc hydrate id.txt > tweet_hydrated.jsonl
但是,我从 24000 条推文 id 中只得到 18 条推文
我也使用了 hydrator 应用程序,但结果是一样的。我究竟做错了什么?从大量数据中提取 18 个是否合乎逻辑?任何关于滋润推文文本世界的新建议都值得赞赏。(对不起我的英语不好,我不是天真的说话者)