0

我正在尝试使用 Crawler4j 从新闻门户网站下载文章。我想将它们存储在“运动”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url 解析是不够的,因为某些门户网站在 url 中不使用类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有更简单的方法吗?

4

1 回答 1

0

您可以解析实际页面并使用 CSS 标签,识别标题或面包屑

我建议为此使用 JSOUP。

您将需要知道新闻站点以及哪个 css 标签是面包屑 css 标签。

于 2015-08-24T14:05:01.910 回答