16

我需要索引很多网页,有什么好的网络爬虫工具?我更喜欢 .NET 可以与之交谈的东西,但这不是一个引人注目的东西。

我真正需要的是可以提供网站网址的东西,它会跟随每个链接并存储用于索引的内容。

4

6 回答 6

12

HTTrack -- http://www.httrack.com/ -- 是一个非常好的网站复制器。效果很好。已经使用了很长时间了。

Nutch 是一个网络爬虫(爬虫是您正在寻找的程序类型) ——http: //lucene.apache.org/nutch/——它使用一流的搜索实用程序 lucene。

于 2008-10-07T00:45:59.357 回答
4

Crawler4j是一个开源的 Java 爬虫,它提供了一个简单的 Web 爬虫界面。您可以在 5 分钟内设置一个多线程网络爬虫。

您可以设置自己的过滤器来访问或不访问页面(url),并根据您的逻辑为每个爬取的页面定义一些操作。

选择 crawler4j 的一些理由;

  1. 多线程结构,
  2. 您可以设置要抓取的深度,
  3. 它是基于 Java 和开源的,
  4. 控制冗余链接(url),
  5. 您可以设置要抓取的页面数,
  6. 您可以设置要抓取的页面大小,
  7. 足够的文档
于 2012-11-18T01:07:34.907 回答
2

Searcharoo.NET包含一个爬取和索引内容的蜘蛛,以及一个使用它的搜索引擎。您应该能够找到解决 Searcharoo.Indexer.EXE 代码的方法,以便在下载内容时捕获内容,并从那里添加您自己的自定义代码...

这是非常基础的(包括所有源代码,并在六篇 CodeProject 文章中进行了解释,其中最新的是Searcharoo v6):蜘蛛跟随链接、图像映射、图像,服从 ROBOTS 指令,解析一些非 HTML 文件类型. 它适用于单个网站(而不是整个网络)。

Nutch/Lucene 几乎可以肯定是一个更强大/商业级的解决方案——但我没有看过他们的代码。不确定您想要完成什么,但您是否也看过Microsoft Search Server Express

免责声明:我是 Searcharoo 的作者;只是在这里提供它作为一个选项。

于 2008-10-07T01:13:31.063 回答
1

蜘蛛侠还不错。它是 PHP,但它可能会有所帮助。

于 2008-10-07T00:42:40.767 回答
1

我使用Mozenda 的 Web Scraping 软件。您可以轻松地让它抓取所有链接并获取您需要的所有信息,这是一款物超所值的软件。

于 2010-05-25T01:05:41.700 回答
0

我还没用过这个,但这看起来很有趣。作者从头开始编写并发布了他是如何做到的。它的代码也可以下载。

于 2008-10-07T00:52:32.837 回答