5

我想设置爬虫来爬取网站,比如说博客,然后只获取网站中的链接并将链接粘贴到文本文件中。你能指导我一步一步设置爬虫吗?我正在使用 Eclipse。

4

1 回答 1

0

Jsoup将做所有你需要的 html 解析。Jsoup 是一个用于处理 html 源代码的 java api。你可以得到

  1. 表,您可以使用它解析每一行或每一列。
  2. 到该 html的所有链接和源导入列表(如 css 和 js 文件的导入)。
  3. 特定标签的数据。

和更多。

出于您的目的,这里是示例代码。

希望这会帮助你。

于 2012-01-11T07:15:18.487 回答