问题标签 [porter-stemmer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

126 问题

0 投票

1 回答

214 浏览

hadoop - Mahout 是否支持词干提取？

我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据，我使用seq2sparsewhich 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置词干？如果没有，我应该实施自己的吗？有什么推荐吗？

2015-05-06T16:46:30.547

0 投票

0 回答

503 浏览

r - R tm 包 stemDocument 函数行为与原始 Porter 词干算法之间的区别

使用包中的 RstemDocument函数tm（参见下面的会话信息）我得到：

然而，当在 Java 中使用这个实现以及使用这个“在线 Porter 词干分析器”时，词干“cmos”的结果将是：“cmo”。

同样在原始文章中，步骤 1a 规则说：

这意味着以“s”结尾的字符串“cmos”应该被删除为“cmo”，删除“s”。

那么为什么 R 的stemDocument函数行为不同呢？

r algorithm tm porter-stemmer

2015-06-15T09:49:44.597

0 投票

1 回答

44 浏览

search - 将搬运工词干分析模块添加到drupal

我是 drupal 新手，但能够使用 microsoft web 平台安装程序安装 acquia-drupal 7。我正在尝试添加 porter stemmer 模块，但无论我选择什么版本，我都会收到此错误

如何正确安装并停止此警告？

search drupal drupal-7 porter-stemmer acquia

2015-06-26T21:58:19.897

0 投票

0 回答

5336 浏览

c# - C# 中的波特词干

最近我正在研究应用程序来做一些文本处理，比如词干提取，我在这个链接的 c# 代码中找到了词干移植：http: //snowball.tartarus.org/otherlangs/english_cpp.txt

我尝试运行，但文本的任何内容都发生了变化。我尝试调用词干类，如下所示：

我无法正确获得结果..输出给我的包含与输入完全相同..这里是 input.txt 的示例：

这里主要是搬运工干代码：

有谁知道如何完成该代码？所以我可以在我的最终项目中使用它。谢谢你。

c#visual-studio text-processing stemming porter-stemmer

2015-07-01T13:40:56.433

0 投票

1 回答

9716 浏览

python - ImportError：无法导入名称搬运工python

我在我的项目中导入 nltk 库，它给出了以下错误。如果有人有同样的错误，请帮忙。

我已经安装了所有 nltk 软件包。我不知道。

python installation nlp nltk porter-stemmer

2015-07-11T09:01:36.037

0 投票

1 回答

96 浏览

nlp - 雪球词干：定义区域

我试图了解 snoball 词干算法。该算法使用两个区域 R1 和 R2，定义如下：

R1 是元音后面的第一个非元音之后的区域，如果没有这样的非元音，R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域，或者如果没有这样的非元音，则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

例子是

我的问题是，为什么 springkled 中的“kled”和圣餐中的“harist”被定义为 R1？我认为正确的结果是“inkled”和“arist”？

nlp stemming linguistics porter-stemmer snowball

2015-08-06T06:13:36.017

0 投票

3 回答

475 浏览

java - 拆分和词干后正确的字符串格式

我有一个文本文件，我正在尝试使用词干分析器。

词干分析器会去除词的后缀。例如，在词干处理之后，“have had have”将是“have have have”。为了做到这一点，必须拆分字符串，因为词干分析器一次只能处理一个单词。拆分和词干提取后，输出如下所示：“havehavehave”。如何将其恢复为正确的格式？

java string split porter-stemmer

2015-08-10T19:42:30.367

0 投票

1 回答

132 浏览

python - 实现接口的类集合的重写方法

我正在使用 scikit-learn 并正在构建管道。构建管道后，我将使用 GridSearchCV 来查找最佳模型。我正在处理文本数据，所以我正在尝试不同的词干分析器。我创建了一个名为 Preprocessor 的类，它接受一个词干分析器和向量化器类，然后尝试覆盖向量化器的方法 build_analyzer 以合并给定的词干分析器。但是，我看到 GridSearchCV 的 set_params 只是直接访问实例变量——即它不会用新的分析器重新实例化矢量化器，就像我一直在做的那样：

所以问题是：如何为传入的所有矢量化器类覆盖 build_analyzer？

python machine-learning overriding scikit-learn porter-stemmer

2015-09-02T00:46:27.313

0 投票

1 回答

2156 浏览

python - 使用 Porter Stemmer 时出现 NLTK importError

我正在导入 nltk，但它给出了以下错误。

几天前我的 nltk 工作正常，我没有更新或更改任何内容，而且我还安装了所有 nltk 数据。

python nlp nltk importerror porter-stemmer

2015-10-02T02:10:03.377

0 投票

1 回答

6398 浏览

stanford-nlp - Stemming option in stanfordcorenlp

Problem: Is there an option to stem the words using stanford-core-nlp? I am not able to find one! I am using the stanford-corenlp-3.5.2.jar.

Code:

stanford-nlp porter-stemmer

2015-10-10T04:09:15.163

1 2 3 4 5 6 7 8 9 10

问题标签 [porter-stemmer]

Reference