我有一个java项目,我想使用一个预先构建的网络爬虫,它给了我足够的灵活性来控制哪些url被爬取,然后一旦爬虫有输出,我想控制把它放在哪里( cassandra 和我自己的模式)。
大局是我想输入一个 url 列表(谷歌和 Bing 搜索),然后过滤返回的 url。我希望它然后抓取过滤后的 url(我可能想更改 url 查询字符串,但这不是硬性要求)。我想获取生成的 html 并使用 Tika 对其进行解析,然后将数据拉出并存储。
我正在查看 Apache Droids,它非常适合,因为它似乎可以完成我提到的所有操作,但没有任何真正的文档。我会考虑 Nutch 或 Heritrix,但用例似乎是一个更完整的解决方案,在略读之后,我没有看到任何关于如何做想做的事情的内容。
有没有人有这种事情的经验?我主要需要一些建议,但是如果您知道做这种事情的示例,那也很好,因为我对 java 还是很陌生。