我想收集域名(爬取)。我编写了一个简单的 Java 应用程序,它可以读取 HTML 页面并将代码保存在文本文件中。现在,我想解析此文本以收集所有域名而不会重复。但是我需要没有“ http://www .”的域名,只需要 domainname.topleveldmian 或 dmianname.subdomain.topleveldomain 或任何数量的子域(然后,需要以相同的方式提取收集的链接并收集它们内部的链接,直到我达到一定数量的链接,比如 100)。
我在之前的帖子中询问过这个问题https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames并进行了搜索。JSoup 似乎是一个不错的解决方案,但我之前没有使用过 JSoup,所以在深入研究它之前。我只想问:它是否实现了我想做的事情?欢迎任何其他以简单方式实现我的简单爬行的建议。