-1

我想收集域名(爬取)。我编写了一个简单的 Java 应用程序,它可以读取 HTML 页面并将代码保存在文本文件中。现在,我想解析此文本以收集所有域名而不会重复。但是我需要没有“ http://www .”的域名,只需要 domainname.topleveldmian 或 dmianname.subdomain.topleveldomain 或任何数量的子域(然后,需要以相同的方式提取收集的链接并收集它们内部的链接,直到我达到一定数量的链接,比如 100)。

我在之前的帖子中询问过这个问题https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames并进行了搜索。JSoup 似乎是一个不错的解决方案,但我之前没有使用过 JSoup,所以在深入研究它之前。我只想问:它是否实现了我想做的事情?欢迎任何其他以简单方式实现我的简单爬行的建议。

4

1 回答 1

-1

jsoup 是一个用于处理真实世界 HTML 的 Java 库。它提供了一个非常方便的 API 用于提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法

所以的,你可以连接到一个网站,提取它的 html 并用 jsoup 解析它。

提取顶级域的逻辑是“你的部分”,你需要自己编写代码逻辑。


查看文档以获取更多选项...

使用选择器语法查找元素

使用 DOM 方法导航文档

于 2012-06-21T16:58:13.157 回答