0

我正在做信息提取的工作,我需要一个从网页抓取数据的工具,windows有没有流行的工具?

4

1 回答 1

9

来自:http ://en.wikipedia.org/wiki/Web_crawler :

  • Aspseek是一个用 C 语言编写的爬虫、索引器和搜索引擎,并在 GPL 下获得许可
  • arachnode.net是使用 SQL 2008 和 Lucene 用 C# 编写的 .NET 网络爬虫。
  • DataparkSearch是根据 GNU 通用公共许可证发布的爬虫和搜索引擎。
  • GNU Wget是一个命令行操作的爬虫,用 C 语言编写并在 GPL 下发布。它通常用于镜像 Web 和 FTP 站点。
  • GRUB是一个开源的分布式搜索爬虫,Wikia Search ( http://wikiasearch.com ) 使用它来爬取网络。
  • Heritrix是 Internet Archive 的存档质量爬虫,设计用于存档大部分 Web 的定期快照。它是用 Java 编写的。
  • ht://Dig在其索引引擎中包含一个网络爬虫。
  • HTTrack使用网络爬虫创建网站的镜像以供离线查看。它是用 C 语言编写的,并在 GPL 下发布。
  • ICDL Crawler是一个用 C++ 编写的跨平台网络爬虫,旨在仅使用计算机的免费 CPU 资源来爬取基于网站解析模板的网站。
  • mnoGoSearch是一个用 C 语言编写的爬虫、索引器和搜索引擎,并在 GPL 下获得许可
  • Nutch是一个用 Java 编写并在 Apache 许可下发布的爬虫。它可以与 Lucene 文本索引包结合使用。
  • Pavuk是一个命令行 Web 镜像工具,带有可选的 X11 GUI 爬虫,并在 GPL 下发布。与 wget 和 httrack 相比,它具有许多高级功能,例如,基于正则表达式的过滤和文件创建规则。
  • YaCy,一个免费的分布式搜索引擎,建立在对等网络的原则之上(根据 GPL 许可)。

还有一些阅读: Spidering Hacks 100 工业强度提示和工具

为开发人员、研究人员、技术助理、图书馆员和高级用户编写的 Spidering Hacks 提供了有关爬取和抓取方法的专家提示。您将从爬虫概念、工具(Perl、LWP、开箱即用实用程序)和道德规范(如何知道什么时候走得太远:什么是可接受的和不可接受的)的速成课程开始。接下来,您将从数据库中收集媒体文件和数据。然后,您将学习如何解释和理解数据,将其重新用于其他应用程序,甚至构建授权接口以将数据集成到您自己的内容中。

于 2009-12-14T17:21:28.330 回答