问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - Solr - 通配符搜索因词干方法而异
我有 2 个版本的 solr 在我的机器上工作。说SolrVer1
和SolrVer2
SolrVer1
已经应用了以下关于字段类型的词干提取方法text_en_splitting
SolrVer2
已经应用了以下关于字段类型的词干提取方法text_en_splitting
它对于常规搜索几乎相同,但是在使用通配符搜索时,通配符搜索不会给出语法上的结果 SolrVer1
与搜索类似 ,与 .相比ray*
,返回的数据非常少。当我观察结果时,我发现它不返回只有and的数据。SolrVer1
SolrVer2
SolrVer1
ray
rays
我不知道我应该SnowballPorterFilterFactory
在哪里使用,我应该在哪里使用PorterStemFilterFactory
。它们的优缺点是什么?
任何人都可以对这种行为有所了解吗?
谢谢
elasticsearch - 使用受保护词进行词干的 ElasticSearch
我正在使用 ElasticSearch(通过 Ruby、Tire)在电子商务服装网站上进行搜索。我需要一个词干过滤器,但我还需要能够指定一个不受词干的保护词列表。目前我正在使用雪球过滤器进行词干提取,但我不知道是否可以指定受保护的词。我还查看了其他一些词干过滤器:
- Porter Stem 的词干处理似乎过于激进,导致了奇怪的混乱
- KStem 似乎只有英文,这是一个多语言项目
- Stemmer 声称像雪球一样,但功能更全面,但我找不到任何关于它的好文档
我的问题是:有没有办法用雪球来实现这些目标(如果有,怎么做?)还是我需要切换到其他词干过滤器之一?
c# - 如何在我的独立 C# 程序中使用 Microsoft SQL Server 2005 中的分词器
我正在编写一个程序,它将在 Microsoft SQL Server 2005 上查询全文搜索索引。被索引的数据是大块文本(多行)。
我只需要提取那些包含搜索词的文本行,以便与结果一起显示。
因此,我需要使用 Sql Server 分词器和词干分析器来确定 blob 中的每一行文本是否与搜索字符串匹配,因为我了解 Windows 搜索中的标准分词器和词干分析器使用不同的算法。
我想如果我将两个 dll(infosoft 和 langwrbk)从 SQL Server 安装复制到我正在运行我的程序的机器上,并在它们上运行 regsvr32,它们将安装在注册表中,我将能够使用他们。
没有这样的运气 - 运行 regsvr32 似乎根本不会向注册表添加任何内容!
我有代码可以使用 Windows 附带的分词器和词干分析器来完成这项工作,并且它可以工作,但我担心这些差异(我在这里的其他帖子中看到过抱怨)。
apache - Solr 中的词干
我正在将 EnglishPorterFilterFactory 用于我目前在 solr 中构建的应用程序。事情进展顺利。我尝试使用 EnglishMinimalStemFilterFactory,因为我想选择一个不那么激进的。但我无法分析 solr 结果的巨大差异。两者有什么区别?您还可以向我推荐一个不那么激进的过滤器工厂来进行多元化词干处理。
谢谢。
algorithm - 需要 Krovetz 词干算法 (KStemming) 帮助
您能否解释一下 Krovetz 词干算法(Kstemming)的算法,我想知道它是如何工作的。
提前致谢
java - 如何在 Java 中配置和使用 KStem?
我想阻止我文档中的单词,并把注意力集中在 KStem 上。我在 Eclipse 中工作,并通过将 lucene-core jar 文件下载到 lib 文件夹并将其添加到构建路径来配置 Lucene。我同样对 KStem jar 文件执行此操作。但是,我找不到任何关于如何在我的 java 代码中使用 KStem 库的示例或文档。我是否需要为此设置 Solr - 不完全确定它的用途。
python - 向 pystemmer 添加语言
我想使用pystemmer
with whoosh
,但不支持我的语言。
我为我的语言 ( Snowball ) 找到了两个雪球文件,并按照此处的建议从它们中制作了 *.c 文件。
现在我想在 pystemmer 中包含 *.c 文件。我将它们添加到源代码中,我编辑了所有找到链接/语言文件列表的文件,但是在安装 pystemmer(从源代码)之后,我仍然无法使用我的语言 - 它不在列表中Stemmer.algorithms()
。
我究竟做错了什么?
sphinx - sphinx search:如何获取词干的频率词列表?
我正在尝试indexer
从命令行工具获取单词的频率列表,并使用未提取的单词来获取它,尽管我设置了morphology = stem_en
索引设置并且搜索本身在具有相同词干的单词上工作正常。有没有办法用词干获得该列表?
python - 在句子字符串中查找单词的不同实现 - Python
(这个问题是关于一般的字符串检查而不是自然语言处理本身,但如果你把它看作一个 NLP 问题,想象它不是当前分析器可以分析的语言,为了简单起见,我将使用英文字符串例如)
假设只有 6 种可能的形式可以实现一个单词
- 首字母大写
- 带有“s”的复数形式
- 带有“es”的复数形式
- 大写+“es”
- 大写+“s”
- 没有复数或大写的基本形式
假设我想找到第一个实例的索引任何形式的单词coach
出现在一个句子中,有没有更简单的方法来做这两种方法:
长 if 条件
迭代尝试除外
java - Italian stemming library in java
i'm searching a java library or something to do stemming of italian strings of words.
The goal is to compare italian words. In this moment words like "attacco", "attacchi","attaccare" etc., are considered different, instead I want returned a true comparison.
I found something like Lucene, snowball.tartarus.org, etc. Is there something else useful, or how can I use them in java?
Thanks for answers.