4

很晚了,我一直在做一些关于 Web Scraping 的工作。经过一些研究和分析,我可以掌握它。但是我坚持到了某个点,即使在谷歌搜索之后我也无法找到合适的答案。我坚持的一点是,通过网络抓取,我使用登录用户和密码登录到 Intranet 页面,对于我的代码中的给定 URL,我能够获取数据,但是当 URL 更改时,我的代码无法登录,因为代码命中错误 URL 的原因。现在点击链接的代码是一种代理,它在刷新命令时点击 URL。

我想知道任何可以帮助我理解在 Web 抓取中应用人工智能的好工具或书籍。有了这个,我可以动态处理我的代理,而无需手动重新配置。任何帮助都会非常高兴。

4

1 回答 1

0

如果链接经常更改,您可以阅读从旧链接发送的标头,看看是否有标头可以将您重定向到新链接

http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.3

这些是 html 重定向代码

我不知道您使用什么软件进行抓取,但我确信它可以处理重定向跟踪。

例如:在用 php 编写的 CURL 中,以下代码用于跟踪重定向

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
//FROM http://stackoverflow.com/questions/3519939/make-curl-follow-redirects

回答您的要求

我想知道任何可以帮助我理解在网络抓取中应用人工智能的好工具或书籍

PHP 是理解基本网络抓取的好工具,但它并没有你想象的那么快。我所知道的最快的技术是 ERLANG。但是对新人不是很友好。

于 2014-04-17T14:09:43.670 回答