问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
546 浏览

solr - 为什么 SOLR KStemFilterFactory 不将“卡片”一词改为“卡片”?

我在 SOLR 中使用 KStem 过滤器工厂(KStemFF)。我意识到 KStemFF 并不是 100% 准确的。

例如,它不会将单词“cards”改为“card”。

“声卡”和“声卡”返回不同的结果。

有没有办法只使用 KStemFF 来完成这项工作?我意识到在这种情况下使用其他词干分析器(如 porter-stemmer)可能会有所帮助,但我真的不想在项目中使用多个词干分析器。

0 投票
1 回答
63 浏览

nlp - 雪球词干:定义空区域

我试图了解雪球词干算法。HW90也有类似的例子,但不是我的。该算法使用两个区域 R1 和 R2,定义如下:

R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

我不明白,“单词末尾的空区域”是什么。有人可以给我一些例子吗?

0 投票
1 回答
84 浏览

c# - c# - 如何访问从文件读取的字符串数组中的每个单词并将其写入c#中的新文件?

我的测试文件包含:

这是 C# 中的代码

运行代码后,testerfile3 只包含 "agre" 。所以我的问题是我希望单独处理字符串数组中的每个单词,即我在访问字符串数组时遇到问题。有没有办法访问字符串数组中的每个索引?

0 投票
1 回答
973 浏览

java - 错误未报告的异常 ClassNotFoundException; 必须被抓住或宣布被扔掉

我正在使用可以在这里找到的雪球词干分析器http://snowball.tartarus.org/

我正在使用这个论坛问题为我自己的项目使用词干算法

是否有 Porter2 词干分析器的 java 实现

我使用给定的类并使用之前回答的帖子中给出的代码

但是当我开始使用 try catch 语句时,我得到了这个错误

真的不知道如何解决这个问题

0 投票
0 回答
184 浏览

java - Spark 提交适用于 1 个执行程序和 1 个驱动程序,但无法与多个执行程序一起使用

我在纱线集群模式下运行一个应用程序。我的应用程序正在执行内部地图操作。

  1. 将 weka 模型从 S3 加载到 java 对象
  2. 使用加载的 weka 模型对象预测记录

问题是这在 1 个执行器上运行良好,而不是在多个执行器上运行。

这是我得到的错误

Stemmer'搬运工'未知!java.lang.NullPointerException at weka.core.stemmers.SnowballStemmer.stem(SnowballStemmer.java:408) at cat.weka.filters.unsupervised.attribute.SmtStringToWordVector.convertInstancewoDocNorm(TestStringToWordVector.java:1768) at cat.weka.filters。 unsupervised.attribute.SmtStringToWordVector.input(TestSmtStringToWordVector.java:776) at cat.engine.prediction.WekaMLPredictor.convertStringToWordVector(WekaMLPredictor.java:203)

这是我在地图操作中使用的 scala 代码

0 投票
2 回答
3952 浏览

nlp - nltk 词干分析器:字符串索引超出范围

我有一组腌制文本文档,我想使用 nltk 的PorterStemmer. 由于特定于我的项目的原因,我想在 django 应用程序视图中进行词干提取。

但是,在 django 视图中提取文档时,我收到了来自string的IndexError: string index out of range异常。结果,运行以下命令:PorterStemmer().stem()'oed'

引发上述错误:

现在真正奇怪的是在 django 之外的相同字符串上运行相同的词干分析器(无论是单独的 python 文件还是交互式 python 控制台)都不会产生错误。换句话说:

其次是:

是什么导致了这个问题?

0 投票
1 回答
197 浏览

java - PorterStemmer 动词以 -es 和 -ed java 结尾

我在java中使用PorterStemmer来获取动词的基本形式,但我发现动词“goes”和“gambles”有问题。它没有将其词干为“goe”和“gamble”,而是将它们词干为“goe”和“gambl”。有没有更好的工具可以处理以 -es 和 -ed 结尾的动词来检索动词的基本形式?带有 wordnet java 的 PS JAWS 也可以做到这一点。这是我的代码:

这是控制台中的输出: gambl

0 投票
1 回答
149 浏览

python-2.7 - 找到一种在 python 中使用 porter stemmer 和编码的方法

我尝试读取文件并使用PorterStemmer存储文件文本的词干标记,但出现此错误。

为了解决它,将这两行添加到我的代码中,然后忽略

但是对于某些文件,我收到以下错误。然后我尝试将编码更改为'utf-8'I,我得到了同样的错误。

0 投票
2 回答
8961 浏览

python - 将搬运工词干分析器应用于每个单词的 Pandas 列

我有一个名为“data_stem”的熊猫数据框,并且有一个名为“TWEET_SENT_1”的列,其中包含如下字符串(50 行)

TWEET_SENT_1

吻十字的麦克爸爸

我喜欢那个视频身体派对

我想将搬运工词干提取器应用到“TWEET_SENT_1”列(对于一行的所有单词)我在下面的代码中尝试过,它给出了一个错误。你能帮我克服这个吗

下面是错误

0 投票
0 回答
998 浏览

c# - 在 C# 中使用词干或词形还原从单词中删除后缀或前缀并获取词根