问题标签 [porter-stemmer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

126 问题

0 投票

1 回答

546 浏览

solr - 为什么 SOLR KStemFilterFactory 不将“卡片”一词改为“卡片”？

我在 SOLR 中使用 KStem 过滤器工厂（KStemFF）。我意识到 KStemFF 并不是 100% 准确的。

例如，它不会将单词“cards”改为“card”。

“声卡”和“声卡”返回不同的结果。

有没有办法只使用 KStemFF 来完成这项工作？我意识到在这种情况下使用其他词干分析器（如 porter-stemmer）可能会有所帮助，但我真的不想在项目中使用多个词干分析器。

solr porter-stemmer

2016-09-01T16:14:00.747

0 投票

1 回答

63 浏览

nlp - 雪球词干：定义空区域

我试图了解雪球词干算法。HW90也有类似的例子，但不是我的。该算法使用两个区域 R1 和 R2，定义如下：

R1 是元音后面的第一个非元音之后的区域，如果没有这样的非元音，R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域，或者如果没有这样的非元音，则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

我不明白，“单词末尾的空区域”是什么。有人可以给我一些例子吗？

2016-09-06T18:54:50.160

0 投票

1 回答

84 浏览

c# - c# - 如何访问从文件读取的字符串数组中的每个单词并将其写入c#中的新文件？

我的测试文件包含：

这是 C# 中的代码

运行代码后，testerfile3 只包含 "agre" 。所以我的问题是我希望单独处理字符串数组中的每个单词，即我在访问字符串数组时遇到问题。有没有办法访问字符串数组中的每个索引？

c#porter-stemmer

2016-10-01T14:37:17.490

0 投票

1 回答

973 浏览

java - 错误未报告的异常 ClassNotFoundException; 必须被抓住或宣布被扔掉

我正在使用可以在这里找到的雪球词干分析器http://snowball.tartarus.org/

我正在使用这个论坛问题为我自己的项目使用词干算法

是否有 Porter2 词干分析器的 java 实现

我使用给定的类并使用之前回答的帖子中给出的代码

但是当我开始使用 try catch 语句时，我得到了这个错误

真的不知道如何解决这个问题

java error-handling porter-stemmer

2016-11-25T04:38:17.510

0 投票

0 回答

184 浏览

java - Spark 提交适用于 1 个执行程序和 1 个驱动程序，但无法与多个执行程序一起使用

我在纱线集群模式下运行一个应用程序。我的应用程序正在执行内部地图操作。

将 weka 模型从 S3 加载到 java 对象
使用加载的 weka 模型对象预测记录

问题是这在 1 个执行器上运行良好，而不是在多个执行器上运行。

这是我得到的错误

Stemmer'搬运工'未知！java.lang.NullPointerException at weka.core.stemmers.SnowballStemmer.stem(SnowballStemmer.java:408) at cat.weka.filters.unsupervised.attribute.SmtStringToWordVector.convertInstancewoDocNorm(TestStringToWordVector.java:1768) at cat.weka.filters。 unsupervised.attribute.SmtStringToWordVector.input(TestSmtStringToWordVector.java:776) at cat.engine.prediction.WekaMLPredictor.convertStringToWordVector(WekaMLPredictor.java:203)

这是我在地图操作中使用的 scala 代码

java apache-spark weka emr porter-stemmer

2016-11-30T18:43:51.980

0 投票

2 回答

3952 浏览

nlp - nltk 词干分析器：字符串索引超出范围

我有一组腌制文本文档，我想使用 nltk 的PorterStemmer. 由于特定于我的项目的原因，我想在 django 应用程序视图中进行词干提取。

但是，在 django 视图中提取文档时，我收到了来自string的IndexError: string index out of range异常。结果，运行以下命令：PorterStemmer().stem()'oed'

引发上述错误：

现在真正奇怪的是在 django 之外的相同字符串上运行相同的词干分析器（无论是单独的 python 文件还是交互式 python 控制台）都不会产生错误。换句话说：

其次是：

是什么导致了这个问题？

nlp nltk stemming porter-stemmer

2017-01-07T03:48:43.550

0 投票

1 回答

197 浏览

java - PorterStemmer 动词以 -es 和 -ed java 结尾

我在java中使用PorterStemmer来获取动词的基本形式，但我发现动词“goes”和“gambles”有问题。它没有将其词干为“goe”和“gamble”，而是将它们词干为“goe”和“gambl”。有没有更好的工具可以处理以 -es 和 -ed 结尾的动词来检索动词的基本形式？带有 wordnet java 的 PS JAWS 也可以做到这一点。这是我的代码：

这是控制台中的输出： gambl

java eclipse nlp porter-stemmer jaws-wordnet

2017-03-26T14:31:55.263

0 投票

1 回答

149 浏览

python-2.7 - 找到一种在 python 中使用 porter stemmer 和编码的方法

我尝试读取文件并使用PorterStemmer存储文件文本的词干标记，但出现此错误。

为了解决它，将这两行添加到我的代码中，然后忽略

但是对于某些文件，我收到以下错误。然后我尝试将编码更改为'utf-8'I，我得到了同样的错误。

python-2.7 encoding ascii porter-stemmer

2017-04-16T03:47:22.380

0 投票

2 回答

8961 浏览

python - 将搬运工词干分析器应用于每个单词的 Pandas 列

我有一个名为“data_stem”的熊猫数据框，并且有一个名为“TWEET_SENT_1”的列，其中包含如下字符串（50 行）

TWEET_SENT_1

吻十字的麦克爸爸

我喜欢那个视频身体派对

我想将搬运工词干提取器应用到“TWEET_SENT_1”列（对于一行的所有单词）我在下面的代码中尝试过，它给出了一个错误。你能帮我克服这个吗

下面是错误

python pandas porter-stemmer

2017-05-05T01:58:27.573

0 投票

0 回答

998 浏览

c# - 在 C# 中使用词干或词形还原从单词中删除后缀或前缀并获取词根

c#porter-stemmer

2017-06-12T14:34:58.063

1 2 3 4 5 6 7 8 9 10

问题标签 [porter-stemmer]

Reference