python - 提取 HTML 文档来自的站点

Question

我有一个充满 HTML 文档的文件夹，这些文档是网页的保存副本，但我需要知道它们来自哪个站点，我可以使用什么功能从文档中提取网站名称？我在 BeautifulSoup 模块中没有找到任何东西。我应该在文档中查找特定内容吗？我不需要知道完整的网址，我只需要知道网站的名称。

score 1 · Accepted Answer

只有在源代码中某处提到了 url 时，您才能这样做...

如果被提及，首先找出 url 在哪里。如果它在那里，它可能会在基本标签中。有时网站有很好的标题，其中包含指向其登录页面的链接，如果您想要的只是域，则可以使用该链接。或者它可能在评论中，具体取决于您如何保存它。

如果在所有页面中提及 url 的方式都相似，那么您的工作很容易：使用 re 或 BeautifulSoup 或 lxml 和 xpath 来获取您需要的信息。还有其他可用的工具，但其中任何一个都可以。

1 回答 1