web-crawler - Crawler4j 下载文章

Question

我正在尝试使用 Crawler4j 从新闻门户网站下载文章。我想将它们存储在“运动”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url 解析是不够的，因为某些门户网站在 url 中不使用类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有更简单的方法吗？

score 0 · Accepted Answer

您可以解析实际页面并使用 CSS 标签，识别标题或面包屑

我建议为此使用 JSOUP。

您将需要知道新闻站点以及哪个 css 标签是面包屑 css 标签。

1 回答 1