问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
373 浏览

c# - 我们如何使用任何词干算法在 C# 中执行反向词干提取?

是否有任何算法可以执行任何 Stemmers 算法的逆运算。也就是说,给定一个词干“ require ”,如何找到词干“require”的所有词?

我们总是会发现相同单词的变体,例如要求、要求、要求、要求。都有“要求”的共同点。如果我们可以合并一个功能来识别所有带有“require”的词,那就太好了。

我们尝试了 Stemmers 算法,它给出的结果如下:

  • 例外 - 除了
  • 没有 - 没有
  • 防止 - 防止
  • 临床 - 诊所
  • 披露,- 披露
  • 收集,-收集,

我们已经尝试了如下代码:

0 投票
1 回答
167 浏览

elasticsearch - ElasticSearch - 使用词干分析器没有结果

我有词干问题。当我使用词干分析器时,单词没有被索引,只有数字被索引

我认为我的 conf 不好,但我在 Internet 上找不到解决方案,所以希望你能帮助我

这是我的conf:

0 投票
1 回答
58 浏览

porter-stemmer - 是否可以修改搬运工词干分析结果?

我在我的项目中使用了搬运工词干分析器(使用 python)。但我在输出中看到一些错误。例如,术语“introductory”更改为“introductori”而不是“introduct”。有可能改善这个结果吗?

0 投票
0 回答
190 浏览

java - 如何在 Java 上的 Elasticsearch 6.1 中实现 Stemmer 搜索

我需要实现词干搜索,我在 elasticsearch 文档上找到了这个链接。我已经发送了一个 json 到 Elasticsearch 服务器。但是我是 elasticsearch 的新手,无法弄清楚如何在 java 中实现这一点。我也找不到任何例子。你能帮我解决这个问题吗?

我已经添加了设置

之后,我试图通过查询找到“滑雪板”:

但结果为空

0 投票
2 回答
679 浏览

python-3.x - 如何将 NLTK 词干恢复为正确的单词?

在我使用NLTK PorterStemmer 对一个词进行词干处理后,该词有时会变成一个不完整的词,例如“receive”在词干之后变成“receiv”,这不是一个正确的词。

那么如何将 NLTK PorterStemmer 词干词恢复为正确的词呢?

0 投票
1 回答
893 浏览

python - 在 pandas 列/索引上应用 NLTK 词干提取

我想将 DataFrame 的列和索引限制为这样的东西

我得到这个错误:

另外,如果我将索引转换为列表:

我收到一条等效的错误消息:

那么,我该如何阻止它们呢?

0 投票
3 回答
3146 浏览

python - python nltk——句子/短语的词干列表

我在一个列表中有一堆句子,我想使用 nltk 库来阻止它。我能够一次阻止一个句子,但是我遇到了从列表中提取句子并将它们重新组合在一起的问题。我缺少一个步骤吗?nltk 库很新。谢谢!

0 投票
2 回答
2050 浏览

python - Python nltk 词干分析器从不删除前缀

我正在尝试预处理单词以删除常见的前缀,如“un”和“re”,但是所有 nltk 的常见词干分析器似乎都完全忽略了前缀:

删除常见前缀和后缀不是词干分析器工作的一部分吗?是否有另一个词干分析器可以可靠地做到这一点?

0 投票
3 回答
139 浏览

text - 具有相同词根/词干的词可以被认为是同义词吗?

基本上,具有相同词根/词干的两个词可以被认为是同义词,特别是在搜索引擎/信息检索上下文中使用时?

0 投票
2 回答
272 浏览

solr - SOLR 中的语法时态

我想知道可以使用哪个词干过滤器工厂来获取词干词的所有可能时态。

示例:如果“运行”是搜索词 -> 它必须获取所有涉及的文件的结果

反之亦然 -> 无论搜索哪个词的时态,它都必须从文件中检索所有结果。

我尝试使用POrterStemFilterFactory , snowball , kstem--> 这些似乎都没有获得预期的结果。

请帮忙 !提前致谢

谢谢,艾西瓦娅