问题标签 [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - 为什么 SOLR KStemFilterFactory 不将“卡片”一词改为“卡片”?
我在 SOLR 中使用 KStem 过滤器工厂(KStemFF)。我意识到 KStemFF 并不是 100% 准确的。
例如,它不会将单词“cards”改为“card”。
“声卡”和“声卡”返回不同的结果。
有没有办法只使用 KStemFF 来完成这项工作?我意识到在这种情况下使用其他词干分析器(如 porter-stemmer)可能会有所帮助,但我真的不想在项目中使用多个词干分析器。
nlp - 雪球词干:定义空区域
我试图了解雪球词干算法。HW90也有类似的例子,但不是我的。该算法使用两个区域 R1 和 R2,定义如下:
R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。
R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。
我不明白,“单词末尾的空区域”是什么。有人可以给我一些例子吗?
c# - c# - 如何访问从文件读取的字符串数组中的每个单词并将其写入c#中的新文件?
我的测试文件包含:
这是 C# 中的代码
运行代码后,testerfile3 只包含 "agre" 。所以我的问题是我希望单独处理字符串数组中的每个单词,即我在访问字符串数组时遇到问题。有没有办法访问字符串数组中的每个索引?
java - 错误未报告的异常 ClassNotFoundException; 必须被抓住或宣布被扔掉
我正在使用可以在这里找到的雪球词干分析器http://snowball.tartarus.org/
我正在使用这个论坛问题为我自己的项目使用词干算法
我使用给定的类并使用之前回答的帖子中给出的代码
但是当我开始使用 try catch 语句时,我得到了这个错误
真的不知道如何解决这个问题
java - Spark 提交适用于 1 个执行程序和 1 个驱动程序,但无法与多个执行程序一起使用
我在纱线集群模式下运行一个应用程序。我的应用程序正在执行内部地图操作。
- 将 weka 模型从 S3 加载到 java 对象
- 使用加载的 weka 模型对象预测记录
问题是这在 1 个执行器上运行良好,而不是在多个执行器上运行。
这是我得到的错误
Stemmer'搬运工'未知!java.lang.NullPointerException at weka.core.stemmers.SnowballStemmer.stem(SnowballStemmer.java:408) at cat.weka.filters.unsupervised.attribute.SmtStringToWordVector.convertInstancewoDocNorm(TestStringToWordVector.java:1768) at cat.weka.filters。 unsupervised.attribute.SmtStringToWordVector.input(TestSmtStringToWordVector.java:776) at cat.engine.prediction.WekaMLPredictor.convertStringToWordVector(WekaMLPredictor.java:203)
这是我在地图操作中使用的 scala 代码
nlp - nltk 词干分析器:字符串索引超出范围
我有一组腌制文本文档,我想使用 nltk 的PorterStemmer
. 由于特定于我的项目的原因,我想在 django 应用程序视图中进行词干提取。
但是,在 django 视图中提取文档时,我收到了来自string的IndexError: string index out of range
异常。结果,运行以下命令:PorterStemmer().stem()
'oed'
引发上述错误:
现在真正奇怪的是在 django 之外的相同字符串上运行相同的词干分析器(无论是单独的 python 文件还是交互式 python 控制台)都不会产生错误。换句话说:
其次是:
是什么导致了这个问题?
java - PorterStemmer 动词以 -es 和 -ed java 结尾
我在java中使用PorterStemmer来获取动词的基本形式,但我发现动词“goes”和“gambles”有问题。它没有将其词干为“goe”和“gamble”,而是将它们词干为“goe”和“gambl”。有没有更好的工具可以处理以 -es 和 -ed 结尾的动词来检索动词的基本形式?带有 wordnet java 的 PS JAWS 也可以做到这一点。这是我的代码:
这是控制台中的输出:
gambl
python-2.7 - 找到一种在 python 中使用 porter stemmer 和编码的方法
我尝试读取文件并使用PorterStemmer存储文件文本的词干标记,但出现此错误。
为了解决它,将这两行添加到我的代码中,然后忽略
但是对于某些文件,我收到以下错误。然后我尝试将编码更改为'utf-8'I,我得到了同样的错误。
python - 将搬运工词干分析器应用于每个单词的 Pandas 列
我有一个名为“data_stem”的熊猫数据框,并且有一个名为“TWEET_SENT_1”的列,其中包含如下字符串(50 行)
TWEET_SENT_1
吻十字的麦克爸爸
我喜欢那个视频身体派对
我想将搬运工词干提取器应用到“TWEET_SENT_1”列(对于一行的所有单词)我在下面的代码中尝试过,它给出了一个错误。你能帮我克服这个吗
下面是错误