2

我正在尝试在词干提取中添加自定义字典,但没有找到运气。

我试过的步骤:

1)我在中添加了以下几行/config/script/DataIngest.xml

<dgidx id="Dgidx" host-id="ITLHost">

<args>

  .....
  <arg>--stemming-updates</arg>

  <arg>C:/Endeca/Apps/CRS/config/script/stemmingExtension.en.xml</arg>
</args>

</dgidx>

并在中添加了以下几行stemmingExtension.en.xml

<word_forms_collection_updates>

<WORD_FORMS>

    <WORD_FORM>shuts</WORD_FORM>

    <WORD_FORM>shirts</WORD_FORM>

</WORD_FORMS>
</word_forms_collection_updates>

运行基线更新,然后尝试搜索“shuts”并期望得到“shirts”结果,但没有。

在词干中设置自定义词典单词的正确方法是什么?

在此先感谢您的帮助。

巴萨瓦拉杰

4

2 回答 2

0

您使用的是哪个版本的 etl 显着性组件?我记得 oeid 3.0 bundle 中有一个类似的错误,不幸的是答案是 clover etl 中使用的组件没有从 java 的 api 调用适当的方法来获取词干。你可以建一个mockup,直接调用java api的,看看使用的不同方法

于 2014-02-25T19:54:27.860 回答
0

对于 Endeca 3.1.2 版本,请尝试将其添加到/MDEX/<version>/conf/stemming/en_word_forms_collection.xml(英文版)

例子:

<WORD_FORMS_COLLECTION>
...
<WORD_FORMS>

<WORD_FORM>shuts</WORD_FORM>

<WORD_FORM>shirts</WORD_FORM>

</WORD_FORMS>

<WORD_FORMS_COLLECTION>
于 2014-11-27T06:05:01.670 回答