1

我必须基本上制作一个程序,该程序采用用户输入的网址并解析 html 以查找链接。然后将所有链接以某种格式存储在另一个 HTML 文件中。我只能访问内置的 python 模块(python 3)。我能够使用 urllib.request 从链接中获取 HTML 代码并将其放入字符串中。我将如何实际从该字符串中提取链接并将它们放入字符串数组中?也可以识别链接(例如图像链接/ mp3链接),以便我可以将它们放入不同的数组中(然后我可以在创建输出文件时对它们进行分类)

4

2 回答 2

1

您可以使用re模块来解析链接的 HTML 文本。特别是该findall方法可以返回每个匹配项。

至于按文件类型排序,这取决于 url 是否实际包含扩展名(即 .mp3、.js、.jpeg 等......)

你可以像这样做一个简单的 for 循环:

import re
html = getHTMLText()
mp3s = []
other = []
for match in re.findall('<reexpression>',html):
    if match.endswith('.mp3'):
        mp3s.append(match)
    else:
        other.append(match)
于 2013-08-27T02:36:25.910 回答
1

尝试使用 HTML.Parser 库或 re 库,他们会帮助你做到这一点,我认为你可以使用正则表达式来做到这一点

r'http[s]?://[^\s<>"]+|www.[^\s<>"]+

于 2013-08-27T03:37:34.110 回答