我想知道是否有一些代码或库可以获取域下的所有 url。我需要找到一个域的所有 url。
例如,如果我的域是https://stackoverflow.com/并且我想查找所有问题的 url,如下所示:
- [将 CSV 转换为 XML 文件的 Java 库或应用程序?
- [ https://stackoverflow.com/questions/456/what-can-i]
- [ https://stackoverflow.com/questions/789/where-can-i]
我不知道该域下有多少问题,但我必须创建一个引擎来搜索所有 url,然后在找到需要将内容插入数据库的 url 之后。
我将为我的 5 个网页创建一个小型搜索引擎。
有人可以帮忙吗?
谢谢,