问题标签 [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene.net - (Lucene.Net) 土耳其词干分析器导致 SnowballProgram 抛出索引超出范围异常。如何解决?
土耳其语词干分析器中的某些词导致 SnowballProgram 抛出索引超出范围异常。有人可以帮我解决这个问题吗?
search - 自定义分析器 elasticsearch soundex 加雪球
以下对我有用(搜索“测试”也返回带有“测试”的字段):
index :
analysis :
analyzer :
default :
type : snowball
language : english
在我的 elasticsearch.yml 文件中设置时。
我想将它与我安装的 soundex 结合起来,所以我尝试了这个:
index :
analysis :
analyzer :
default :
type : custom
tokenizer : standard
filter : [standard, lowercase, soundex_filter, stemming]
filter :
soundex_filter :
type : phonetic
encoder : soundex
replace : true
stemming :
type : snowball
language : english
但没有成功,它们似乎都不起作用(没有词干或 soundex)
有人在组合过滤器方面取得了成功吗?
r - r 中的词干无法按预期工作
我正在尝试在 R 中做一个非常简单的词,并得到一些非常出乎意料的东西。在下面的代码中,“完整”变量是“NA”。为什么我不能完成单词easy的词干?
谢谢你!
nlp - 雪球词干:定义区域
我试图了解 snoball 词干算法。该算法使用两个区域 R1 和 R2,定义如下:
R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。
R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。
例子是
我的问题是,为什么 springkled 中的“kled”和圣餐中的“harist”被定义为 R1?我认为正确的结果是“inkled”和“arist”?
r - 用 r 蒸的话
我很难理解 R 词干处理。
在我的示例中,我创建了以下语料库对象
所以 a 是
该字符串中的第一个单词是“设备”,我创建了术语矩阵
并将其作为输出
我想知道的是为什么我在“设备”和“不同”处丢失了“e”,但在“更多”处没有丢失它。
我怎样才能避免在这个词和其他一些词中发生这种情况?
谢谢。
sphinx - libstemmer sphinx 不起作用
我用 CentOs 6 在我的流浪机器上安装了 sphinx,我正在尝试从 Snowball 安装荷兰语 libstemmer。安装已成功执行,但测试出错。
我创建了 2 个具有完全相同数据的索引。我的索引是:
当我搜索例如荷兰语单词“afzuigkappen”时,它必须给出与“afzuigkap”完全相同的结果
有人可以给我一些有关如何获得这项工作的信息吗?附言。对不起,我的英语不好..
java - Weka 雪球不工作
我正在尝试使用 Weka 创建一个带有 Weka 的意大利语文本分类器StringToWordVector
来创建功能。
分类器工作正常,但我将词干分析器设置为过滤器的选项,但它不起作用。这是我的代码:
当我在控制台开始调试时出现日志
我也尝试sb.stem(string)
过,但出现相同的消息,结果字符串是起始字符串。
我怎样才能让它工作?
stemming - 如何让两场比赛之间的雪球变得贪婪?
我有 2 个应该完全并行的例程。我希望 Snowball 执行它们并选择匹配时间最长的那个。
目前,我使用or
. 这意味着执行第一个,如果失败则执行第二个。
我想对两个例程进行测试以获取匹配长度,将其存储在变量中,然后比较它们并执行具有最长匹配的例程。
是否有执行此操作的标准说明或更好的解决方案?
伪代码:
真实代码
postgresql - PostgreSQL showball 算法不适用于同义词
我为此配置创建了自定义配置和同义词。
这是我的synonym_custom.syn
文件内容
这些是创建脚本:
现在,当我创建向量时,它不会为单词创建词法gates
如您所见,它改变了单词door
,doors
and gate
,但不是gates
。相反,雪球算法工作gates
并创建了 lexem gate
。
如何强制 postgresql 传递同义词扔雪球算法的结果。我知道,同义词词典优先于雪球。作为一种解决方法,我可以将gate
单词的所有修改添加到synonym_custom.syn
中,但我有 3,500 个具有类似同义词的单词。因此,就我而言,这不是解决方案。
java - 雪球词干 [Java]
我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是,它词干的词要么不一定需要词干,要么词干太多?例如,online -> onlin
,why -> whi
,raise-> rais
,appreciate -> appreci
。
有什么方法可以尝试防止这种不必要的词干,因为我希望它通过实现某种可以避免这些的字典来给我有意义的词,以及词干需要词干的词,例如treating -> treat
,records -> record
等development -> develop
词干?或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确?
感谢所有的帮助。
这是我的功能。