有哪些方法可以使抓取的内容中的相对 url 成为绝对,以便抓取的 html 看起来像原始内容并且 css 不会损坏?
我发现<base>
标签可能会有所帮助。但是我怎样才能找出 URL 的原始基础是什么?
我不关心与链接的交互,但确实希望它们看起来正确。
假设我抓取的网站“example.com/blog/new/i.html”有 2 个资源
- <链接src="/style/style.css" >
- < 链接 src="newstyle.css" >。
现在,如果我将 base 设置为“example.com/blog/new/i.html”,第一个不会中断