windows - 是否有流行的网络数据抓取工具？

Question

我正在做信息提取的工作，我需要一个从网页抓取数据的工具，windows有没有流行的工具？

score 9 · Accepted Answer

来自：http ://en.wikipedia.org/wiki/Web_crawler ：

Aspseek是一个用 C 语言编写的爬虫、索引器和搜索引擎，并在 GPL 下获得许可
arachnode.net是使用 SQL 2008 和 Lucene 用 C# 编写的 .NET 网络爬虫。
DataparkSearch是根据 GNU 通用公共许可证发布的爬虫和搜索引擎。
GNU Wget是一个命令行操作的爬虫，用 C 语言编写并在 GPL 下发布。它通常用于镜像 Web 和 FTP 站点。
GRUB是一个开源的分布式搜索爬虫，Wikia Search ( http://wikiasearch.com ) 使用它来爬取网络。
Heritrix是 Internet Archive 的存档质量爬虫，设计用于存档大部分 Web 的定期快照。它是用 Java 编写的。
ht://Dig在其索引引擎中包含一个网络爬虫。
HTTrack使用网络爬虫创建网站的镜像以供离线查看。它是用 C 语言编写的，并在 GPL 下发布。
ICDL Crawler是一个用 C++ 编写的跨平台网络爬虫，旨在仅使用计算机的免费 CPU 资源来爬取基于网站解析模板的网站。
mnoGoSearch是一个用 C 语言编写的爬虫、索引器和搜索引擎，并在 GPL 下获得许可
Nutch是一个用 Java 编写并在 Apache 许可下发布的爬虫。它可以与 Lucene 文本索引包结合使用。
Pavuk是一个命令行 Web 镜像工具，带有可选的 X11 GUI 爬虫，并在 GPL 下发布。与 wget 和 httrack 相比，它具有许多高级功能，例如，基于正则表达式的过滤和文件创建规则。
YaCy，一个免费的分布式搜索引擎，建立在对等网络的原则之上（根据 GPL 许可）。

为开发人员、研究人员、技术助理、图书馆员和高级用户编写的 Spidering Hacks 提供了有关爬取和抓取方法的专家提示。您将从爬虫概念、工具（Perl、LWP、开箱即用实用程序）和道德规范（如何知道什么时候走得太远：什么是可接受的和不可接受的）的速成课程开始。接下来，您将从数据库中收集媒体文件和数据。然后，您将学习如何解释和理解数据，将其重新用于其他应用程序，甚至构建授权接口以将数据集成到您自己的内容中。

windows - 是否有流行的网络数据抓取工具？

1 回答 1

Related

Reference