问题标签 [snowball]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

0 回答

174 浏览

lucene.net - (Lucene.Net) 土耳其词干分析器导致 SnowballProgram 抛出索引超出范围异常。如何解决？

土耳其语词干分析器中的某些词导致 SnowballProgram 抛出索引超出范围异常。有人可以帮我解决这个问题吗？

2014-11-11T09:51:57.610

0 投票

1 回答

362 浏览

search - 自定义分析器 elasticsearch soundex 加雪球

以下对我有用（搜索“测试”也返回带有“测试”的字段）： index : analysis : analyzer : default : type : snowball language : english 在我的 elasticsearch.yml 文件中设置时。

我想将它与我安装的 soundex 结合起来，所以我尝试了这个：

index : analysis : analyzer : default : type : custom tokenizer : standard filter : [standard, lowercase, soundex_filter, stemming] filter : soundex_filter : type : phonetic encoder : soundex replace : true stemming : type : snowball language : english

但没有成功，它们似乎都不起作用（没有词干或 soundex）

有人在组合过滤器方面取得了成功吗？

search elasticsearch soundex snowball

2015-01-12T22:33:13.077

0 投票

2 回答

2303 浏览

r - r 中的词干无法按预期工作

我正在尝试在 R 中做一个非常简单的词，并得到一些非常出乎意料的东西。在下面的代码中，“完整”变量是“NA”。为什么我不能完成单词easy的词干？

谢谢你！

r tm snowball

2015-04-08T15:18:45.797

0 投票

1 回答

96 浏览

nlp - 雪球词干：定义区域

我试图了解 snoball 词干算法。该算法使用两个区域 R1 和 R2，定义如下：

R1 是元音后面的第一个非元音之后的区域，如果没有这样的非元音，R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域，或者如果没有这样的非元音，则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

例子是

我的问题是，为什么 springkled 中的“kled”和圣餐中的“harist”被定义为 R1？我认为正确的结果是“inkled”和“arist”？

nlp stemming linguistics porter-stemmer snowball

2015-08-06T06:13:36.017

0 投票

2 回答

217 浏览

r - 用 r 蒸的话

我很难理解 R 词干处理。

在我的示例中，我创建了以下语料库对象

所以 a 是

该字符串中的第一个单词是“设备”，我创建了术语矩阵

并将其作为输出

我想知道的是为什么我在“设备”和“不同”处丢失了“e”，但在“更多”处没有丢失它。

我怎样才能避免在这个词和其他一些词中发生这种情况？

谢谢。

r nlp tm snowball

2015-08-26T21:20:22.897

0 投票

2 回答

560 浏览

sphinx - libstemmer sphinx 不起作用

我用 CentOs 6 在我的流浪机器上安装了 sphinx，我正在尝试从 Snowball 安装荷兰语 libstemmer。安装已成功执行，但测试出错。

我创建了 2 个具有完全相同数据的索引。我的索引是：

当我搜索例如荷兰语单词“afzuigkappen”时，它必须给出与“afzuigkap”完全相同的结果

有人可以给我一些有关如何获得这项工作的信息吗？附言。对不起，我的英语不好..

sphinx stemming snowball

2015-09-04T13:58:42.437

0 投票

1 回答

243 浏览

java - Weka 雪球不工作

我正在尝试使用 Weka 创建一个带有 Weka 的意大利语文本分类器StringToWordVector来创建功能。

分类器工作正常，但我将词干分析器设置为过滤器的选项，但它不起作用。这是我的代码：

当我在控制台开始调试时出现日志

我也尝试sb.stem(string)过，但出现相同的消息，结果字符串是起始字符串。

我怎样才能让它工作？

java weka snowball

2015-10-08T15:05:55.817

0 投票

1 回答

47 浏览

stemming - 如何让两场比赛之间的雪球变得贪婪？

我有 2 个应该完全并行的例程。我希望 Snowball 执行它们并选择匹配时间最长的那个。

目前，我使用or. 这意味着执行第一个，如果失败则执行第二个。

我想对两个例程进行测试以获取匹配长度，将其存储在变量中，然后比较它们并执行具有最长匹配的例程。

是否有执行此操作的标准说明或更好的解决方案？

伪代码：

真实代码

stemming snowball

2016-01-10T00:03:59.903

0 投票

0 回答

94 浏览

postgresql - PostgreSQL showball 算法不适用于同义词

我为此配置创建了自定义配置和同义词。
这是我的synonym_custom.syn文件内容

这些是创建脚本：

现在，当我创建向量时，它不会为单词创建词法gates

如您所见，它改变了单词door，doorsand gate，但不是gates。相反，雪球算法工作gates并创建了 lexem gate。
如何强制 postgresql 传递同义词扔雪球算法的结果。我知道，同义词词典优先于雪球。作为一种解决方法，我可以将gate单词的所有修改添加到synonym_custom.syn中，但我有 3,500 个具有类似同义词的单词。因此，就我而言，这不是解决方案。

postgresql full-text-search config synonym snowball

2016-02-04T12:17:49.010

0 投票

1 回答

990 浏览

java - 雪球词干 [Java]

我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是，它词干的词要么不一定需要词干，要么词干太多？例如，online -> onlin，why -> whi，raise-> rais，appreciate -> appreci。

有什么方法可以尝试防止这种不必要的词干，因为我希望它通过实现某种可以避免这些的字典来给我有意义的词，以及词干需要词干的词，例如treating -> treat,records -> record等development -> develop词干？或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确？

感谢所有的帮助。

这是我的功能。

java stemming porter-stemmer snowball

2016-02-15T17:37:41.310

1 2 3 4 5 6 7 8 9 10

问题标签 [snowball]

Reference