问题标签 [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Mahout 是否支持词干提取?
我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据,我使用seq2sparse
which 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置词干?如果没有,我应该实施自己的吗?有什么推荐吗?
search - 将搬运工词干分析模块添加到drupal
我是 drupal 新手,但能够使用 microsoft web 平台安装程序安装 acquia-drupal 7。我正在尝试添加 porter stemmer 模块,但无论我选择什么版本,我都会收到此错误
如何正确安装并停止此警告?
c# - C# 中的波特词干
最近我正在研究应用程序来做一些文本处理,比如词干提取,我在这个链接的 c# 代码中找到了词干移植:http: //snowball.tartarus.org/otherlangs/english_cpp.txt
我尝试运行,但文本的任何内容都发生了变化。我尝试调用词干类,如下所示:
我无法正确获得结果..输出给我的包含与输入完全相同..这里是 input.txt 的示例:
这里主要是搬运工干代码:
有谁知道如何完成该代码?所以我可以在我的最终项目中使用它。谢谢你。
python - ImportError:无法导入名称搬运工python
我在我的项目中导入 nltk 库,它给出了以下错误。如果有人有同样的错误,请帮忙。
我已经安装了所有 nltk 软件包。我不知道。
nlp - 雪球词干:定义区域
我试图了解 snoball 词干算法。该算法使用两个区域 R1 和 R2,定义如下:
R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。
R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。
例子是
我的问题是,为什么 springkled 中的“kled”和圣餐中的“harist”被定义为 R1?我认为正确的结果是“inkled”和“arist”?
java - 拆分和词干后正确的字符串格式
我有一个文本文件,我正在尝试使用词干分析器。
词干分析器会去除词的后缀。例如,在词干处理之后,“have had have”将是“have have have”。为了做到这一点,必须拆分字符串,因为词干分析器一次只能处理一个单词。拆分和词干提取后,输出如下所示:“havehavehave”。如何将其恢复为正确的格式?
python - 实现接口的类集合的重写方法
我正在使用 scikit-learn 并正在构建管道。构建管道后,我将使用 GridSearchCV 来查找最佳模型。我正在处理文本数据,所以我正在尝试不同的词干分析器。我创建了一个名为 Preprocessor 的类,它接受一个词干分析器和向量化器类,然后尝试覆盖向量化器的方法 build_analyzer 以合并给定的词干分析器。但是,我看到 GridSearchCV 的 set_params 只是直接访问实例变量——即它不会用新的分析器重新实例化矢量化器,就像我一直在做的那样:
所以问题是:如何为传入的所有矢量化器类覆盖 build_analyzer?
python - 使用 Porter Stemmer 时出现 NLTK importError
我正在导入 nltk,但它给出了以下错误。
几天前我的 nltk 工作正常,我没有更新或更改任何内容,而且我还安装了所有 nltk 数据。
stanford-nlp - Stemming option in stanfordcorenlp
Problem: Is there an option to stem the words using stanford-core-nlp
?
I am not able to find one! I am using the stanford-corenlp-3.5.2.jar.
Code: