3

我正在尝试索引维基百科的转储。为了为文章提供摘要(或者,将来可能启用突出显示功能),我想在没有 WikiMarkup 的情况下存储他们的文本。对于第一次尝试,我只留下字母数字符号就足够了。所以问题是可以存储在字符级别过滤的字段,而不是原始字段吗?

4

2 回答 2

2

没有办法开箱即用。如果您希望 Solr 执行此操作,您可以创建自己的UpdateHandler,但这可能有点棘手。最简单的方法是在将文档发送到 Solr 之前对其进行预处理。

于 2012-04-10T12:21:36.140 回答
1

默认情况下,Solr 在索引时间分析器为您的 fieldType 应用过滤器之前存储原始字段值。所以默认情况下它不存储过滤后的值。但是,您有两种选择来获得您想要的结果。

  1. 您可以在查询时对字段应用与在索引时应用相同的过滤器来删除 wiki 标记。有关更多详细信息,请参阅Solr Wiki 上的分析器、标记器和标记过滤器。
  2. 在将数据加载到 Solr 之前,您可以在单独的过程中将过滤器应用于数据,然后 Solr 将存储过滤后的值,因为您将在过滤状态下传递它们。
于 2012-04-10T12:21:11.570 回答