问题标签 [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 使用规则路径时,Elasticsearch Stemmer Override Token Filter 不起作用
将 Stemmer Override Token Filter 与包含所有规则的文件一起使用时遇到问题。它不起作用!使用内联规则时,它可以正常工作。有谁知道为什么会这样?
不工作的例子:
工作示例:
ES 版本 1.7.1
谢谢你
java - 雪球词干 [Java]
我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是,它词干的词要么不一定需要词干,要么词干太多?例如,online -> onlin
,why -> whi
,raise-> rais
,appreciate -> appreci
。
有什么方法可以尝试防止这种不必要的词干,因为我希望它通过实现某种可以避免这些的字典来给我有意义的词,以及词干需要词干的词,例如treating -> treat
,records -> record
等development -> develop
词干?或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确?
感谢所有的帮助。
这是我的功能。
java - 从java中的词干文本中提取专有名词
我正在使用 OpenNLP 从句子中提取专有名词。这是我的代码:
问题是它是一个词干文本(我使用了波特词干算法),所以每个单词都是小写的。因此,专有名词没有被提取。我上面提取专有名词的方法是否正确?如果是,那么我必须在代码中进行哪些更改才能使其正常工作?如果不是,那么建议我一种新方法以及示例代码将帮助我做到这一点。
谢谢你。
python - 如何在 Python 中使用 PorterStemmer 来阻止大型 csv 文件?
我最近正在使用 python 在 nlp 中做项目。我需要预处理一个包含具有许多行和列的文本的 csv 文件。我只能干简单的句子。并且无法一次阻止整个 csv 文件。我怎样才能做到这一点?
python - 如何在 Python 中使用 PorterStemmer 提取 csv 文件?
我最近正在使用 python 在 nlp 中做项目。我需要预处理一个 csv 文件,该文件包含具有许多行和列的文本。我只能停止简单的句子。并且无法一次阻止整个 csv 文件。我怎样才能做到这一点??在尝试阻止简单的 csv 文件时出现错误
php - 在php中使用PorterStemmer后的输入数组和不同的输出
我正在使用 PorterStemmer 来词干词,就像“工作”一样,在调用 PorterStemmer 课程后它将是“工作”,它对我有用。
但是我想阻止一个句子,例如,如果我把这句话给我的代码:
前
“我正在踢足球并努力工作,因为我有足够的力量”
后
“我正在踢球并努力工作,因为我有足够的力量”
似乎我在 php 中使用“foreach”循环有问题,因为我的代码只包含一个词。
我的代码:
现在,将$parts
我的句子作为一个数组包含在内,我怎样才能阻止每个单词,然后将新句子放入名为的新变量中$str2
python - PorterStemmer Stemmer 除非在字符串末尾(在 Python 中),否则不会对单词进行词干提取
我正在创建一个谈论国际象棋的机器人,现在我正在预处理。问题是,当 Python 程序对字符串中的单词进行词干处理时,除非该单词是最终单词,否则它不会做任何事情。那就是输出。我所期望的是词干分析器能够阻止用户输入的句子中的每个单词。我做错了什么?这是代码:
algorithm - 波特词干,步骤 1b
与 [1]搬运工词干算法实现问题类似的问题?, 但扩大了。
基本上,step1b 定义为:
步骤1b
我的问题是为什么 feed
干到 feed
而不是 fe
?我在网上尝试过的所有在线 Porter Stemmer 的词根 feed
都是 ,但据我所见,它应该是 fe
.
我的思路是:
有人可以向我解释一下在线 Porter Stemmers 是如何做到的 feed
吗?
谢谢。
java - android应用程序中的PorterStemmer错误
我正在使用Lucene来提取词干。我在一个 Java 应用程序(主要)上进行了测试,它运行良好。但是,在我的 android 应用程序中(在 onCreate 中)它不起作用。有谁知道为什么?这是我在 onCreate 中的代码,主要是在 onCreate 中旋转时出错:
这是运行时遇到的堆栈跟踪。
[更新] 我发现我必须通过放置 libs 文件夹来导入我的文件。问题是我遇到错误“转换为 dalvik 格式失败,错误 1”。这是我的控制台消息:
老方法都试过了,有谁知道新的方法吗?