0

我在 Ubuntu Server 12.04 上使用 Nutch 1.6 和 Solr 4.3 我想打开和关闭内容索引。有没有办法在我的 HTML 页面中指定这种行为,以便 Solr 可以做出相应的行为?

例如,在使用 Google Search Appliance 时,我会在页面上不想编入索引的内容(页眉、页脚、版权字符串等)周围使用“googleon”-“googleoff”标签。

谢谢你

4

2 回答 2

3

您需要为 Nutch 创建一个自定义插件才能完成此行为。以下是一些带有示例的相关链接。

于 2013-05-17T11:44:57.313 回答
0

There is a text file, "robots.txt" that provide information to the search engines about which html pages the program is allowed or not to look for content. In the link FAQ robots.txt: How to stop indexing you will find all the information.

于 2013-05-17T10:02:21.090 回答