我为社区网站上的搜索设置了 OSS。基本设置工作正常,但现在我需要对其进行微调。其中一个重要部分是确保索引从每个页面保存正确的部分,但忽略所有页面共有的部分(即页脚),但是这些部分对于爬虫通过链接查找网站的所有部分是必需的. 我知道这个opensearchserver.ignore
类:
<div class="opensearchserver.ignore">
This text should not be indexed.
</div>
但由于链接很重要,这样的标签会派上用场:
<div class='noindexbutfollow'>
This will not be indexed but the link {Open Search Server} would be followed
</div>
(正如在这个线程中讨论的那样。)
这可能吗?