1

我可以使用过滤器替换字段中的数据吗?

假设数据。

<doc>
  <field name=id>1</field >
  <field name=contents>a article about specific subject</field>
</doc>

我将内容字段复制到类别字段

<copyField source="contents" dest="category"/>

类别字段有一个过滤器。

<field name="category" type="myType" stored="true" />

<fieldType name="myType" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="myTokenizer"/> 
    <filter class="myFilter"/> 
  </analyzer>
</fieldType>

我想将此文档分类为哪个类别,并使用过滤器将结果如“正面”、“负面”放在类别字段中。我已经实现了一个 object-myFilter-to 使用 LDA 进行分类,并且这个对象使用了已经定义的主题模型。
如何将原始数据替换为类别字段中的结果?是否可以?

4

1 回答 1

0

这应该是可能的,因为 Tokenizers 会接收一个 Reader 并对其进行标记和过滤。
在您的情况下,您可以使用 KeywordTokenizer 以便输入不被标记,并且您可以设计一个过滤器来检查内容的语言以填充类别字段。

例如开发你自己的 solr 过滤器

您只需将当前内容替换为 LDA 结果。

于 2012-12-03T10:39:44.127 回答