我已经存储了一些 html 文件并重命名了它们。是否有一些可能的方法可以在 python 中提取 html 文件的 URL。
编辑:我希望找到 .html 文件的 URL,而不是其中存在的链接。我正在寻找一种通用方法,因为我有很多文件。
仅当文件本身包含该 URL 时才有可能,这不是很常见。所以这取决于你下载的文件。寻找一个 <link rel="canonical" ...>
,因为这是搜索引擎推荐将规范地址发布到网页的方式。如果他们有那个标签,你可以使用那个 URL。
否则你就不走运了。您应该重写您的蜘蛛程序以将 URL 与文档一起保存。