python - 在 Python 中从 HTML 中提取链接

Question

我必须基本上制作一个程序，该程序采用用户输入的网址并解析 html 以查找链接。然后将所有链接以某种格式存储在另一个 HTML 文件中。我只能访问内置的 python 模块（python 3）。我能够使用 urllib.request 从链接中获取 HTML 代码并将其放入字符串中。我将如何实际从该字符串中提取链接并将它们放入字符串数组中？也可以识别链接（例如图像链接/ mp3链接），以便我可以将它们放入不同的数组中（然后我可以在创建输出文件时对它们进行分类）

score 1 · Accepted Answer

您可以使用re模块来解析链接的 HTML 文本。特别是该findall方法可以返回每个匹配项。

至于按文件类型排序，这取决于 url 是否实际包含扩展名（即 .mp3、.js、.jpeg 等......）

你可以像这样做一个简单的 for 循环：

import re
html = getHTMLText()
mp3s = []
other = []
for match in re.findall('<reexpression>',html):
    if match.endswith('.mp3'):
        mp3s.append(match)
    else:
        other.append(match)

score 1 · Accepted Answer

尝试使用 HTML.Parser 库或 re 库，他们会帮助你做到这一点，我认为你可以使用正则表达式来做到这一点

r'http[s]?://[^\s<>"]+|www.[^\s<>"]+

python - 在 Python 中从 HTML 中提取链接

2 回答 2

Related

Reference