我想做的事:使用简单的 HTML DOM 对页面中的所有链接进行缩放,同时注意获取完整链接(即从http://
一直到地址的末尾)。
我的问题:我得到的链接/wiki/Cell_wall
不是http://www.wikipedia.com/wiki/Cell_wall
.
更多示例:如果我抓取 URL: http://en.wikipedia.org/wiki/Leaf
,我会得到/wiki/Cataphyll
和之类的链接//en.wikipedia.org/
。或者,如果我在抓取http://php.net/manual/en/function.strpos.php
,我会得到类似function.strripos.php
.
我已经尝试了很多不同的技术来构建实际的完整 URL,但是有很多可能的情况,我完全不知道如何才能覆盖所有基础。
但是,我敢肯定有很多人以前遇到过这个问题——这就是我求助于你的原因!
PS 我想这个问题几乎可以简化为只处理 local href
s,但如上所述,我遇到了//en.wikipedia.org/
which 不是完整的 url,但不是本地的。