问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
214 浏览

hadoop - Mahout 是否支持词干提取?

我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据,我使用seq2sparsewhich 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置词干?如果没有,我应该实施自己的吗?有什么推荐吗?

0 投票
0 回答
503 浏览

r - R tm 包 stemDocument 函数行为与原始 Porter 词干算法之间的区别

使用包中的 RstemDocument函数tm(参见下面的会话信息)我得到:

然而,当在 Java 中使用这个实现以及使用这个“在线 Porter 词干分析器”时,词干“cmos”的结果将是:“cmo”。

同样在原始文章中,步骤 1a 规则说:

这意味着以“s”结尾的字符串“cmos”应该被删除为“cmo”,删除“s”。

那么为什么 R 的stemDocument函数行为不同呢?

0 投票
1 回答
44 浏览

search - 将搬运工词干分析模块添加到drupal

我是 drupal 新手,但能够使用 microsoft web 平台安装程序安装 acquia-drupal 7。我正在尝试添加 porter stemmer 模块,但无论我选择什么版本,我都会收到此错误

如何正确安装并停止此警告?

0 投票
0 回答
5336 浏览

c# - C# 中的波特词干

最近我正在研究应用程序来做一些文本处理,比如词干提取,我在这个链接的 c# 代码中找到了词干移植:http: //snowball.tartarus.org/otherlangs/english_cpp.txt

我尝试运行,但文本的任何内容都发生了变化。我尝试调用词干类,如下所示:

我无法正确获得结果..输出给我的包含与输入完全相同..这里是 input.txt 的示例:

这里主要是搬运工干代码:

有谁知道如何完成该代码?所以我可以在我的最终项目中使用它。谢谢你。

0 投票
1 回答
9716 浏览

python - ImportError:无法导入名称搬运工python

我在我的项目中导入 nltk 库,它给出了以下错误。如果有人有同样的错误,请帮忙。

我已经安装了所有 nltk 软件包。我不知道。

0 投票
1 回答
96 浏览

nlp - 雪球词干:定义区域

我试图了解 snoball 词干算法。该算法使用两个区域 R1 和 R2,定义如下:

R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

例子是

我的问题是,为什么 springkled 中的“kled”和圣餐中的“harist”被定义为 R1?我认为正确的结果是“inkled”和“arist”?

0 投票
3 回答
475 浏览

java - 拆分和词干后正确的字符串格式

我有一个文本文件,我正在尝试使用词干分析器。

词干分析器会去除词的后缀。例如,在词干处理之后,“have had have”将是“have have have”。为了做到这一点,必须拆分字符串,因为词干分析器一次只能处理一个单词。拆分和词干提取后,输出如下所示:“havehavehave”。如何将其恢复为正确的格式?

0 投票
1 回答
132 浏览

python - 实现接口的类集合的重写方法

我正在使用 scikit-learn 并正在构建管道。构建管道后,我将使用 GridSearchCV 来查找最佳模型。我正在处理文本数据,所以我正在尝试不同的词干分析器。我创建了一个名为 Preprocessor 的类,它接受一个词干分析器和向量化器类,然后尝试覆盖向量化器的方法 build_analyzer 以合并给定的词干分析器。但是,我看到 GridSearchCV 的 set_params 只是直接访问实例变量——即它不会用新的分析器重新实例化矢量化器,就像我一直在做的那样:

所以问题是:如何为传入的所有矢量化器类覆盖 build_analyzer?

0 投票
1 回答
2156 浏览

python - 使用 Porter Stemmer 时出现 NLTK importError

我正在导入 nltk,但它给出了以下错误。

几天前我的 nltk 工作正常,我没有更新或更改任何内容,而且我还安装了所有 nltk 数据。

0 投票
1 回答
6398 浏览

stanford-nlp - Stemming option in stanfordcorenlp

Problem: Is there an option to stem the words using stanford-core-nlp? I am not able to find one! I am using the stanford-corenlp-3.5.2.jar.

Code: