目前我们使用 Apache Solr 作为搜索引擎,使用 Apache Nutch 作为 Crawler。现在我们创建了一个站点站点,其中包含动态生成的产品。
由于当前设置将在内容字段中搜索内容,因此每当我们搜索动态产品时,它不会出现在搜索结果中。
您能否指导我如何将页面上的动态产品抓取并索引到 Apache Solr?我们可以使用 Sitemap.xml 执行此操作吗?如果可以,请建议如何操作?
谢谢!
目前我们使用 Apache Solr 作为搜索引擎,使用 Apache Nutch 作为 Crawler。现在我们创建了一个站点站点,其中包含动态生成的产品。
由于当前设置将在内容字段中搜索内容,因此每当我们搜索动态产品时,它不会出现在搜索结果中。
您能否指导我如何将页面上的动态产品抓取并索引到 Apache Solr?我们可以使用 Sitemap.xml 执行此操作吗?如果可以,请建议如何操作?
谢谢!
一种可能的解决方案是:
步骤1)将每个动态产品的描述放在自己的页面中。例如http://domain/product?id=xxx
(或使用更友好的网址,例如http://domain/product-x
)。
第 2 步)您需要一个或多个页面来列出这些产品的网址。您提到的 sitemap.xml 是一种选择,但一个简单的 html 页面也足够了。因此,例如,您可以动态生成一个名为 products_list 的页面,其中包含如下条目<a href="http://domain/product?id=xxx">Product x</a>
:
第 3 步)您应该将 products_list 页面的 url 添加到您的 nutch 种子文件中,或者在已经抓取的页面之一中包含指向它的链接。