twitter - 使用python解析推特网址

Question

我正在使用以下代码，但无法从 url 中提取任何信息。

from urllib.parse import urlparse

if __name__ == "__main__":
    z = 5
    url = 'https://twitter.com/isro/status/1170331318132957184'
    df = urlparse(url)
    print(df)

ParseResult(scheme='https', netloc='twitter.com', path='/isro/status/1170331318132957184', params='', query='', fragment='')

我希望从链接中提取推文消息、推文时间和其他可用信息，但上面的代码显然没有实现这一点。我该如何从这里开始？

print(df)
ParseResult(scheme='https', netloc='twitter.com', path='/isro/status/1170331318132957184', params='', query='', fragment='')

score 1 · Accepted Answer

我想你可能误解了 urllib parseurl 函数的用途。来自 Python 文档：

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

将 URL 解析为六个组件，返回一个名为 tuple 的 6 项。这对应于 URL 的一般结构：scheme://netloc/path;parameters?query#fragment

从您在 ParseResult 中看到的结果来看，您的代码运行良好 - 它将您的 URL 分解为组件部分。

听起来好像您确实想在该 URL 处获取Web 内容。在这种情况下，我可能会改为查看 urllib.request.urlopen。

twitter - 使用python解析推特网址

1 回答 1

Related

Reference