python - 提取存储的html文件的URL

Question

我已经存储了一些 html 文件并重命名了它们。是否有一些可能的方法可以在 python 中提取 html 文件的 URL。

编辑：我希望找到 .html 文件的 URL，而不是其中存在的链接。我正在寻找一种通用方法，因为我有很多文件。

score 5 · Accepted Answer

仅当文件本身包含该 URL 时才有可能，这不是很常见。所以这取决于你下载的文件。寻找一个 <link rel="canonical" ...>，因为这是搜索引擎推荐将规范地址发布到网页的方式。如果他们有那个标签，你可以使用那个 URL。

否则你就不走运了。您应该重写您的蜘蛛程序以将 URL 与文档一起保存。

1 回答 1