我正在编写一个基本的爬虫,它只是用 PHP 缓存页面。
它所做的只是get_file_contents
用来获取网页的内容和正则表达式来获取所有链接<a href="URL">DESCRIPTION</a>
- 在它返回的那一刻:
Array {
[url] => URL
[desc] => DESCRIPTION
}
我遇到的问题是弄清楚确定页面链接是否是本地的或是否可能位于完全不同的本地目录中的逻辑。
它可以是任意数量的组合:即href="../folder/folder2/blah/page.html"
或href="google.com"
或href="page.html"
- 可能性是无穷无尽的。
解决这个问题的正确算法是什么?我不想丢失任何可能很重要的数据。