-1

目前我们使用 Apache Solr 作为搜索引擎,使用 Apache Nutch 作为 Crawler。现在我们创建了一个站点站点,其中包含动态生成的产品。

由于当前设置将在内容字段中搜索内容,因此每当我们搜索动态产品时,它不会出现在搜索结果中。

您能否指导我如何将页面上的动态产品抓取并索引到 Apache Solr?我们可以使用 Sitemap.xml 执行此操作吗?如果可以,请建议如何操作?

谢谢!

4

1 回答 1

0

一种可能的解决方案是:

步骤1)将每个动态产品的描述放在自己的页面中。例如http://domain/product?id=xxx(或使用更友好的网址,例如http://domain/product-x)。

第 2 步)您需要一个或多个页面来列出这些产品的网址。您提到的 sitemap.xml 是一种选择,但一个简单的 html 页面也足够了。因此,例如,您可以动态生成一个名为 products_list 的页面,其中包含如下条目<a href="http://domain/product?id=xxx">Product x</a>

第 3 步)您应该将 products_list 页面的 url 添加到您的 nutch 种子文件中,或者在已经抓取的页面之一中包含指向它的链接。

于 2013-09-16T11:36:56.950 回答