我正在做一个项目,我需要爬取超过 10TB 的数据并将其编入索引。我需要实现花费更少时间的增量抓取。
我的问题是:对于所有大型组织来说,与 java 一起使用的最佳工具是哪一个?
我正在使用 Solr 和 Manifold CF 进行尝试,但 Manifold 在 Internet 上的文档很少。
我正在做一个项目,我需要爬取超过 10TB 的数据并将其编入索引。我需要实现花费更少时间的增量抓取。
我的问题是:对于所有大型组织来说,与 java 一起使用的最佳工具是哪一个?
我正在使用 Solr 和 Manifold CF 进行尝试,但 Manifold 在 Internet 上的文档很少。
对于使用Java的任何爬网活动,最好使用开源 JSOUP 和SolrJ API,清晰简洁的欠稳定文档。
Jsoup是一个用于处理真实世界 HTML 的 Java 库。它提供了一个非常方便的 API 用于提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。
SolrJ是一种 API,它使 Java 应用程序可以轻松地与 Solr 通信。SolrJ 隐藏了许多连接到 Solr 的细节,并允许您的应用程序通过简单的高级方法与 Solr 进行交互。
如需更多选项,您还可以使用 java API尝试Elasticsearch
我们最终使用了 Solr J (JAVA) 和 Apache Manifold CF。尽管 Manifold CF 的文档几乎没有,但我们订阅了时事通讯并向开发人员提出问题,他们迅速做出了回应。但是,我不建议任何人使用此设置,因为 Apache Manifold CF 已经过时且构建不佳。所以更好地寻找替代品。希望这对某人有所帮助。