问题标签 [twint]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
404 浏览

python - 如何使用 twint 库为整个国家/地区抓取 twitter

你好我想问一个关于使用 Twint 库从 Twitter 上抓取推文的问题

基本上,要从特定位置抓取推文,需要放置由“纬度、经度、半径”组成的地理编码数据

所以我的问题是如何在整个印度尼西亚抓取推文?如果我需要使用地理编码,那么坐标将coor_ind = '4.2105, 101.9758, radius(km) 如何确定覆盖整个印度尼西亚的半径?

0 投票
0 回答
84 浏览

python - 使用prepare_requests方法在Python中使用代理和请求

我正在尝试使用使用 Requests 库的 Library Twint github。该应用程序使用“prepare_requests”方法,并声明这是“因为潜在的 cookie 更新”。我想使用我的 crawlera 代理,它通常可以处理请求。但是我找不到使用这种方法的正确方法。

该库有一个负责请求的 token.py 文件。

这些也是编码请求以使用我的代理的说明:

我一直在阅读.send的文档,虽然有关于发送和代理的信息,但我无法使用它。任何帮助将不胜感激。

0 投票
1 回答
81 浏览

python - 如何在 Python 中为具有随机长度和字符顺序的字符串创建搜索词?

我想使用 Python 中的twint 工具来搜索包含埃塞俄比亚这个词的所有可能拼写的推文,包括夸大其词,例如 ETHIOOOPIAAAA 和ethioopiaaaa。到目前为止,我已经尝试创建一个搜索词,它是一个字符串,f"e{eth}a"其中eth随机长度的字符串介于 0-18 个字符之间,以 e 开头,以 a 结尾,中间有随机的字符顺序,其中的字符是有限的到 e,t,h,i,o,p,a。

我试过用这个:

这不起作用,因为它将一个生成的字符串分配给search_term并搜索该单个术语,但我想搜索任何长度为 0-18 字符的所有可能字符串。遵循此规则:

e - (e,t,h,i,o,p,a 的随机顺序) - a

另外,我需要使查询不区分大小写。我试图.casefold()在配置像这样的'config.Search = search_term.casefold()'这样的twint时将字符串方法添加到搜索查询中,假设这只会读取字符串并忽略大小写。我不确定这会奏效。

任何帮助将不胜感激。

0 投票
2 回答
566 浏览

python - 如何使用 Twint 从特定年份和特定位置抓取 Twitter 数据

上面的代码收集了带有单词 covid-19 的推文,但我只想要去年和特定位置的推文?

0 投票
1 回答
175 浏览

python - 如何在 Twint 模块的搜索查询中排除用户名

在这里,我只想要包含以下单词的推文,但我也从包含我的搜索查询中的单词的用户名中获取推文。

我应该如何在搜索这些推文的同时排除带有这些词的用户名?

0 投票
1 回答
24 浏览

python - 无法在python中标记数据

这是我的代码,我想导入一个 CSV 文件,并且只标记一列中的文本。该列名为“tweet”。我无法获得此代码的输出

0 投票
1 回答
26 浏览

python - 无法标记整列

我想标记 CSV 文件中的数据。我正在使用此代码,但无法标记整个列。我只能标记列中的第一行。该专栏被称为“推特”。

0 投票
1 回答
140 浏览

python - 从twint获取数据时如何将我的csv文件命名为时间戳

我正在使用 twint 从 twitter 上抓取数据。出于这个原因,每当我将输出文件保存为 csv 时,我都想命名当前时间戳,但它给了我一个错误

在此处输入图像描述

但是,如果我在 c.Output 中简单地用字符串命名任何文件,则创建文件时不会出现任何问题

0 投票
2 回答
2024 浏览

python-3.x - Python twint 库在 Colab 环境中不起作用

我正在尝试在 Colab 中使用 Python 的 twint 库(Twitter scraper)运行代码。

我的代码是:

上面的代码在我机器上的 Jupyter 中完美运行并获取推文。但是,Colab 中的相同代码会导致以下结果:

如何在 Colab 中解决这个问题?

0 投票
0 回答
52 浏览

python - 如何在 url 的节点之间建立边?

在我的代码中,我构建了节点、用户名和 urlsCleaned,边缘位于用户名和 urlsCleaned 之间。我想在 url 和其他 url 之间建立边缘(url 是节点)。我希望构建边缘的方式是,如果数据帧 NWO_data 中的用户在不同的推文中使用两个单独的 url,那么它应该在 url 节点之间构建边缘。我该怎么做呢?数据框有这些列:用户名、姓名、推文、语言、提及、网址、replies_count retweets_count、likes_count、hashtags、链接、转推。同一个用户可以在多行中,因为他们可以有多个推文。