0

我正在使用 Python 和 lxml 库来解析保存的网页。

已保存网页的 docinfo 显示已保存网页的磁盘位置。

storedHtmlDoc.docinfo.URL

有没有办法从保存的页面中提取原始 URl?

4

1 回答 1

1

如果您自己没有将下载页面的 URL 存储在某个地方,那么您将无法使用它。

如果您可以控制下载过程,您可以将下载页面的 URL 放在页面的 META 标记中。

于 2013-04-24T08:20:28.507 回答