问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
622 浏览

elasticsearch - 使用规则路径时,Elasticsearch Stemmer Override Token Filter 不起作用

将 Stemmer Override Token Filter 与包含所有规则的文件一起使用时遇到问题。它不起作用!使用内联规则时,它可以正常工作。有谁知道为什么会这样?

不工作的例子:

工作示例:

ES 版本 1.7.1

谢谢你

0 投票
0 回答
375 浏览

matlab - Porter Stemmer 的 Matlab 实现中的错误

我使用此处发布的 Porter Stemming 算法的 Matlab 实现。当我在大部分文本上使用它时,"ies"传入字符串时会收到一条错误消息。

我收到错误消息:

我想可能是这样,因为它"ies"是一个常见的词尾,并且在第 223 行的脚本中也显示为elseif ends('ies', b, k).

我期待该程序能够应对此类情况。我认为这是错误的还是这是一个错误?

目前,我使用了 Porter Stemmer 2(此处),它不会引发错误并将“ies”转换为“ie”。显然,词干“ies”有点毫无意义,但我宁愿不要让它在这样的极端情况下抛出错误。

0 投票
1 回答
990 浏览

java - 雪球词干 [Java]

我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是,它词干的词要么不一定需要词干,要么词干太多?例如,online -> onlinwhy -> whiraise-> raisappreciate -> appreci

有什么方法可以尝试防止这种不必要的词干,因为我希望它通过实现某种可以避免这些的字典来给我有意义的词,以及词干需要词干的词,例如treating -> treat,records -> recorddevelopment -> develop词干?或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确?

感谢所有的帮助。

这是我的功能。

0 投票
1 回答
764 浏览

java - 从java中的词干文本中提取专有名词

我正在使用 OpenNLP 从句子中提取专有名词。这是我的代码:

问题是它是一个词干文本(我使用了波特词干算法),所以每个单词都是小写的。因此,专有名词没有被提取。我上面提取专有名词的方法是否正确?如果是,那么我必须在代码中进行哪些更改才能使其正常工作?如果不是,那么建议我一种新方法以及示例代码将帮助我做到这一点。

谢谢你。

0 投票
1 回答
508 浏览

python - 如何在 Python 中使用 PorterStemmer 来阻止大型 csv 文件?

我最近正在使用 python 在 nlp 中做项目。我需要预处理一个包含具有许多行和列的文本的 csv 文件。我只能干简单的句子。并且无法一次阻止整个 csv 文件。我怎样才能做到这一点?

0 投票
1 回答
1634 浏览

python - 如何在 Python 中使用 PorterStemmer 提取 csv 文件?

我最近正在使用 python 在 nlp 中做项目。我需要预处理一个 csv 文件,该文件包含具有许多行和列的文本。我只能停止简单的句子。并且无法一次阻止整个 csv 文件。我怎样才能做到这一点??在尝试阻止简单的 csv 文件时出现错误

错误是

0 投票
1 回答
135 浏览

php - 在php中使用PorterStemmer后的输入数组和不同的输出

我正在使用 PorterStemmer 来词干词,就像“工作”一样,在调用 PorterStemmer 课程后它将是“工作”,它对我有用。

但是我想阻止一个句子,例如,如果我把这句话给我的代码:

“我正在踢足球并努力工作,因为我有足够的力量”

“我正在踢球并努力工作,因为我有足够的力量”

似乎我在 php 中使用“foreach”循环有问题,因为我的代码只包含一个词。

我的代码:

现在,将$parts我的句子作为一个数组包含在内,我怎样才能阻止每个单词,然后将新句子放入名为的新变量中$str2

0 投票
0 回答
454 浏览

python - PorterStemmer Stemmer 除非在字符串末尾(在 Python 中),否则不会对单词进行词干提取

我正在创建一个谈论国际象棋的机器人,现在我正在预处理。问题是,当 Python 程序对字符串中的单词进行词干处理时,除非该单词是最终单词,否则它不会做任何事情。那就是输出。我所期望的是词干分析器能够阻止用户输入的句子中的每个单词。我做错了什么?这是代码:

0 投票
4 回答
384 浏览

algorithm - 波特词干,步骤 1b

与 [1]搬运工词干算法实现问题类似的问题?, 但扩大了。

基本上,step1b 定义为:

步骤1b

我的问题是为什么 feed干到 feed而不是 fe?我在网上尝试过的所有在线 Porter Stemmer 的词根 feed都是 ,但据我所见,它应该是 fe.

我的思路是:

有人可以向我解释一下在线 Porter Stemmers 是如何做到的 feed吗?

谢谢。

0 投票
1 回答
345 浏览

java - android应用程序中的PorterStemmer错误

我正在使用Lucene来提取词干。我在一个 Java 应用程序(主要)上进行了测试,它运行良好。但是,在我的 android 应用程序中(在 onCreate 中)它不起作用。有谁知道为什么?这是我在 onCreate 中的代码,主要是在 onCreate 中旋转时出错:

这是运行时遇到的堆栈跟踪。

[更新] 我发现我必须通过放置 libs 文件夹来导入我的文件。问题是我遇到错误“转换为 dalvik 格式失败,错误 1”。这是我的控制台消息:

老方法都试过了,有谁知道新的方法吗?