-2

我想知道是否有一些代码或库可以获取域下的所有 url。我需要找到一个域的所有 url。

例如,如果我的域是https://stackoverflow.com/并且我想查找所有问题的 url,如下所示:

  1. [将 CSV 转换为 XML 文件的 Java 库或应用程序?
  2. [ https://stackoverflow.com/questions/456/what-c​​an-i]
  3. [ https://stackoverflow.com/questions/789/where-can-i]

我不知道该域下有多少问题,但我必须创建一个引擎来搜索所有 url,然后在找到需要将内容插入数据库的 url 之后。

我将为我的 5 个网页创建一个小型搜索引擎。

有人可以帮忙吗?

谢谢,

4

1 回答 1

0

Lucene 搜索使您可以轻松地为您的页面编制索引,从而可以高效、准确地搜索它们。

有关Lucene 搜索的 PHP 实现,请参见Zend_Search_Lucene 。

您仍然需要爬取您的网站并构建索引,这是另一个问题。您可以使用Teleport Pro之类的软件来抓取您的站点并为您提供 URL 列表,然后您可以将这些 URL 提供给 PHP 脚本,该脚本获取所有页面的内容并将它们提供给 Zend_Search_Lucene 以构建索引。您也可以用 PHP 编写爬虫或使用现有的解决方案。搜索php crawler会产生很多东西,包括这个有用的php crawler

于 2012-07-07T21:38:07.277 回答