java - JSoup 能做到这一点吗？

Question

我想收集域名（爬取）。我编写了一个简单的 Java 应用程序，它可以读取 HTML 页面并将代码保存在文本文件中。现在，我想解析此文本以收集所有域名而不会重复。但是我需要没有“ http://www .”的域名，只需要 domainname.topleveldmian 或 dmianname.subdomain.topleveldomain 或任何数量的子域（然后，需要以相同的方式提取收集的链接并收集它们内部的链接，直到我达到一定数量的链接，比如 100）。

我在之前的帖子中询问过这个问题https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames并进行了搜索。JSoup 似乎是一个不错的解决方案，但我之前没有使用过 JSoup，所以在深入研究它之前。我只想问：它是否实现了我想做的事情？欢迎任何其他以简单方式实现我的简单爬行的建议。

score -1 · Accepted Answer

jsoup 是一个用于处理真实世界 HTML 的 Java 库。它提供了一个非常方便的 API 用于提取和操作数据，使用最好的 DOM、CSS 和类似 jquery 的方法

所以是的，你可以连接到一个网站，提取它的 html 并用 jsoup 解析它。

提取顶级域的逻辑是“你的部分”，你需要自己编写代码逻辑。

查看文档以获取更多选项...

使用选择器语法查找元素

使用 DOM 方法导航文档

java - JSoup 能做到这一点吗？

1 回答 1

Related

Reference