Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Python 和 lxml 库来解析保存的网页。
已保存网页的 docinfo 显示已保存网页的磁盘位置。
storedHtmlDoc.docinfo.URL
有没有办法从保存的页面中提取原始 URl?
如果您自己没有将下载页面的 URL 存储在某个地方,那么您将无法使用它。
如果您可以控制下载过程,您可以将下载页面的 URL 放在页面的 META 标记中。