问题标签 [snowball]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
174 浏览

lucene.net - (Lucene.Net) 土耳其词干分析器导致 SnowballProgram 抛出索引超出范围异常。如何解决?

土耳其语词干分析器中的某些词导致 SnowballProgram 抛出索引超出范围异常。有人可以帮我解决这个问题吗?

0 投票
1 回答
362 浏览

search - 自定义分析器 elasticsearch soundex 加雪球

以下对我有用(搜索“测试”也返回带有“测试”的字段): index : analysis : analyzer : default : type : snowball language : english 在我的 elasticsearch.yml 文件中设置时。

我想将它与我安装的 soundex 结合起来,所以我尝试了这个:

index : analysis : analyzer : default : type : custom tokenizer : standard filter : [standard, lowercase, soundex_filter, stemming] filter : soundex_filter : type : phonetic encoder : soundex replace : true stemming : type : snowball language : english

但没有成功,它们似乎都不起作用(没有词干或 soundex)

有人在组合过滤器方面取得了成功吗?

0 投票
2 回答
2303 浏览

r - r 中的词干无法按预期工作

我正在尝试在 R 中做一个非常简单的词,并得到一些非常出乎意料的东西。在下面的代码中,“完整”变量是“NA”。为什么我不能完成单词easy的词干?

谢谢你!

0 投票
1 回答
96 浏览

nlp - 雪球词干:定义区域

我试图了解 snoball 词干算法。该算法使用两个区域 R1 和 R2,定义如下:

R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

例子是

我的问题是,为什么 springkled 中的“kled”和圣餐中的“harist”被定义为 R1?我认为正确的结果是“inkled”和“arist”?

0 投票
2 回答
217 浏览

r - 用 r 蒸的话

我很难理解 R 词干处理。

在我的示例中,我创建了以下语料库对象

所以 a 是

该字符串中的第一个单词是“设备”,我创建了术语矩阵

并将其作为输出

我想知道的是为什么我在“设备”和“不同”处丢失了“e”,但在“更多”处没有丢失它。

我怎样才能避免在这个词和其他一些词中发生这种情况?

谢谢。

0 投票
2 回答
560 浏览

sphinx - libstemmer sphinx 不起作用

我用 CentOs 6 在我的流浪机器上安装了 sphinx,我正在尝试从 Snowball 安装荷兰语 libstemmer。安装已成功执行,但测试出错。

我创建了 2 个具有完全相同数据的索引。我的索引是:

当我搜索例如荷兰语单词“afzuigkappen”时,它必须给出与“afzuigkap”完全相同的结果

有人可以给我一些有关如何获得这项工作的信息吗?附言。对不起,我的英语不好..

0 投票
1 回答
243 浏览

java - Weka 雪球不工作

我正在尝试使用 Weka 创建一个带有 Weka 的意大利语文本分类器StringToWordVector来创建功能。

分类器工作正常,但我将词干分析器设置为过滤器的选项,但它不起作用。这是我的代码:

当我在控制台开始调试时出现日志

我也尝试sb.stem(string)过,但出现相同的消息,结果字符串是起始字符串。

我怎样才能让它工作?

0 投票
1 回答
47 浏览

stemming - 如何让两场比赛之间的雪球变得贪婪?

我有 2 个应该完全并行的例程。我希望 Snowball 执行它们并选择匹配时间最长的那个。

目前,我使用or. 这意味着执行第一个,如果失败则执行第二个。

我想对两个例程进行测试以获取匹配长度,将其存储在变量中,然后比较它们并执行具有最长匹配的例程。

是否有执行此操作的标准说明或更好的解决方案?

伪代码:

真实代码

0 投票
0 回答
94 浏览

postgresql - PostgreSQL showball 算法不适用于同义词

我为此配置创建了自定义配置和同义词。
这是我的synonym_custom.syn文件内容

这些是创建脚本:

现在,当我创建向量时,它不会为单词创建词法gates

如您所见,它改变了单词doordoorsand gate,但不是gates。相反,雪球算法工作gates并创建了 lexem gate
如何强制 postgresql 传递同义词扔雪球算法的结果。我知道,同义词词典优先于雪球。作为一种解决方法,我可以将gate单词的所有修改添加到synonym_custom.syn中,但我有 3,500 个具有类似同义词的单词。因此,就我而言,这不是解决方案。

0 投票
1 回答
990 浏览

java - 雪球词干 [Java]

我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是,它词干的词要么不一定需要词干,要么词干太多?例如,online -> onlinwhy -> whiraise-> raisappreciate -> appreci

有什么方法可以尝试防止这种不必要的词干,因为我希望它通过实现某种可以避免这些的字典来给我有意义的词,以及词干需要词干的词,例如treating -> treat,records -> recorddevelopment -> develop词干?或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确?

感谢所有的帮助。

这是我的功能。