我有一个复合 c1 网站。我喜欢使用 Microsoft Search Server 功能。我已经安装了所有软件,但是当我搜索时,我会得到每一页,因为导航菜单在每一页上都有索引。当我在导航菜单上使用 class="noindex" 选项时,爬虫不会跟随菜单中使用的链接。
谁能告诉我如何排除内容,但要确保爬虫仍然遵循内容中使用的链接?
我有一个复合 c1 网站。我喜欢使用 Microsoft Search Server 功能。我已经安装了所有软件,但是当我搜索时,我会得到每一页,因为导航菜单在每一页上都有索引。当我在导航菜单上使用 class="noindex" 选项时,爬虫不会跟随菜单中使用的链接。
谁能告诉我如何排除内容,但要确保爬虫仍然遵循内容中使用的链接?
考虑让站点地图页面具有您网站的导航结构,并在某个地方有指向该页面的链接,该页面可以由爬虫跟踪......然后在通过“导航标题”中的某个关键字搜索时,您将只有站点地图页面。
这基本上是 Microsoft Search Server 的一个问题,但 Composite C1 的 C1 包试图解决这个问题。引用http://docs.composite.net/Composite.Search.MicrosoftSearchServer:
从索引中排除页面内容
确保在 C1 网站的 Web.config 中指定了 RemapperHttpModule。如果没有,请执行以下操作:
<httpModules>
在和<modules>
(对于 IIS 7.0 或更高版本)元素下添加以下配置:<add name="MssRemaper" type="Composite.Search.MicrosoftSearchServer.RemapperHttpModule" />
现在,要从 Microsoft Search Server 索引中排除页面的一部分:
<div class="noindex">
确保爬虫找到您的页面
导航元素的排除将发生在 Composite C1 端,因此这样做将删除 Search Server 爬虫跟踪这些链接的能力。您可以通过确保您的网站上有站点地图并让 Search Server 将指向站点地图页面的 URL 编入索引来解决此问题。