我们正在设计一个大型网络抓取/解析项目。基本上,脚本需要遍历网页列表,提取特定标签的内容,并将其存储在数据库中。对于大规模(数千万页?)执行此操作,您会推荐什么语言。.
我们使用 MongoDB 作为数据库,所以任何具有可靠 MongoDB 驱动程序的东西都是一个加分项。
到目前为止,我们一直在使用(不要笑)PHP、curl 和Simple HTML DOM Parser,但我不认为它可以扩展到数百万个页面,特别是因为 PHP 没有适当的多线程。
我们需要一些易于开发的东西,可以在 Linux 服务器上运行,具有强大的 HTML/DOM 解析器来轻松提取该标签,并且可以在合理的时间内轻松下载数百万个网页。我们并不是真的在寻找网络爬虫,因为我们不需要跟踪链接和索引所有内容,我们只需要从列表中的每个页面中提取一个标签。