2

是否有可用于 PHP 或 Ruby 的网络爬虫库?一个可以在深度优先或广度优先的库......即使使用 href="../relative_path.html" 和基本 url 也可以处理链接。

4

5 回答 5

5

http://phpcrawl.cuab.de/

于 2009-05-13T03:09:34.630 回答
3

查看此页面以获取 Ruby 库:Ruby Mechanize

我想提一下,您仍然需要对爬虫遍历网站的方式负责。

于 2009-05-13T03:08:58.140 回答
0

你可以在 ruby​​ 中使用 webrat 或 watir,比机械化容易得多

于 2009-05-24T05:18:03.423 回答
0

如果你想学习基本的网络爬虫和搜索东西,你可以开始看“luna引擎”。

于 2014-04-15T07:32:09.640 回答
0

如果您需要抓取使用 javascript 的网页,您可以使用Capybara和驱动程序,该驱动程序将启动一个真正的浏览器,例如poltergeist。它通常与测试框架一起用于验收测试,但也可以在测试框架之外使用。

于 2014-04-15T13:41:17.983 回答