-2

我有一个充满 HTML 文档的文件夹,这些文档是网页的保存副本,但我需要知道它们来自哪个站点,我可以使用什么功能从文档中提取网站名称?我在 BeautifulSoup 模块中没有找到任何东西。我应该在文档中查找特定内容吗?我不需要知道完整的网址,我只需要知道网站的名称。

4

1 回答 1

1

只有在源代码中某处提到了 url 时,您才能这样做...

如果被提及,首先找出 url 在哪里。如果它在那里,它可能会在基本标签中。有时网站有很好的标题,其中包含指向其登录页面的链接,如果您想要的只是域,则可以使用该链接。或者它可能在评论中,具体取决于您如何保存它。

如果在所有页面中提及 url 的方式都相似,那么您的工作很容易:使用 re 或 BeautifulSoup 或 lxml 和 xpath 来获取您需要的信息。还有其他可用的工具,但其中任何一个都可以。

于 2013-08-23T05:44:06.740 回答