我正在做信息提取的工作,我需要一个从网页抓取数据的工具,windows有没有流行的工具?
问问题
1500 次
1 回答
9
来自:http ://en.wikipedia.org/wiki/Web_crawler :
- Aspseek是一个用 C 语言编写的爬虫、索引器和搜索引擎,并在 GPL 下获得许可
- arachnode.net是使用 SQL 2008 和 Lucene 用 C# 编写的 .NET 网络爬虫。
- DataparkSearch是根据 GNU 通用公共许可证发布的爬虫和搜索引擎。
- GNU Wget是一个命令行操作的爬虫,用 C 语言编写并在 GPL 下发布。它通常用于镜像 Web 和 FTP 站点。
- GRUB是一个开源的分布式搜索爬虫,Wikia Search ( http://wikiasearch.com ) 使用它来爬取网络。
- Heritrix是 Internet Archive 的存档质量爬虫,设计用于存档大部分 Web 的定期快照。它是用 Java 编写的。
- ht://Dig在其索引引擎中包含一个网络爬虫。
- HTTrack使用网络爬虫创建网站的镜像以供离线查看。它是用 C 语言编写的,并在 GPL 下发布。
- ICDL Crawler是一个用 C++ 编写的跨平台网络爬虫,旨在仅使用计算机的免费 CPU 资源来爬取基于网站解析模板的网站。
- mnoGoSearch是一个用 C 语言编写的爬虫、索引器和搜索引擎,并在 GPL 下获得许可
- Nutch是一个用 Java 编写并在 Apache 许可下发布的爬虫。它可以与 Lucene 文本索引包结合使用。
- Pavuk是一个命令行 Web 镜像工具,带有可选的 X11 GUI 爬虫,并在 GPL 下发布。与 wget 和 httrack 相比,它具有许多高级功能,例如,基于正则表达式的过滤和文件创建规则。
- YaCy,一个免费的分布式搜索引擎,建立在对等网络的原则之上(根据 GPL 许可)。
还有一些阅读: Spidering Hacks 100 工业强度提示和工具:
为开发人员、研究人员、技术助理、图书馆员和高级用户编写的 Spidering Hacks 提供了有关爬取和抓取方法的专家提示。您将从爬虫概念、工具(Perl、LWP、开箱即用实用程序)和道德规范(如何知道什么时候走得太远:什么是可接受的和不可接受的)的速成课程开始。接下来,您将从数据库中收集媒体文件和数据。然后,您将学习如何解释和理解数据,将其重新用于其他应用程序,甚至构建授权接口以将数据集成到您自己的内容中。
于 2009-12-14T17:21:28.330 回答