我正在尝试使用 Crawler4j 从新闻门户网站下载文章。我想将它们存储在“运动”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url 解析是不够的,因为某些门户网站在 url 中不使用类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有更简单的方法吗?
问问题
122 次
我正在尝试使用 Crawler4j 从新闻门户网站下载文章。我想将它们存储在“运动”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url 解析是不够的,因为某些门户网站在 url 中不使用类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有更简单的方法吗?