问题标签 [lemmatization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
263 浏览

python - 应用词形还原或词干提取时,形容词不分组到其词根(名词)

例如,要词形还原的词是“managerial”或“financial”。但是词形还原不支持将管理分组为“经理”或将财务分组为“财务”。可以使用什么替代方法从形容词中获取词根(名词)?

0 投票
3 回答
133 浏览

python - 如何让 *ologist 和 *ology 这样的词词干/词形还原到同一个词根?

我一直在玩NLTK中的一堆词干分析器和词形还原器,但没有一个能满足我的要求。我有一堆词,如“radiologist”、“radiology”、“cardiologist”、“cardiology”等……我想让 *ologist 与 *ology 同一个桶。我在 Python 中尝试过 PorterStemmer、SnowballStemmer 和 WordNet 的 Lemmatizer,但没有将它们发送到同一个存储桶。似乎词干提取应该可以做到这一点,而且这些词并不少见。您将如何实现预期的结果?

0 投票
1 回答
210 浏览

java - 构建 Java Lemmatizer

我正在尝试使用 Java API(没有斯坦福提供的 Apache OpenNLP)来构建一个标记器。我已经能够通过使用正则表达式和 Java Pattern/Matcher 来分离单词:

我现在想找到这个词的引理。由于许可问题,我不想使用 StanfordNLP。接下来是什么?我想我确实需要一本字典作为参考/比较的模型。和 ...?有人做过吗?尝试使用 Java 构建单词 lemmatizer?提前致谢。:)

0 投票
1 回答
1741 浏览

python - ntlk:如何获得词的变化

我有一个单词列表,将近 5000 个英语单词,对于每个单词,我需要这些屈折形式:

名词:单数和复数

动词:不定式,现在简单,现在简单第三人称,过去简单,现在分词(ing 形式),过去分词

形容词:比较级和最高级

副词

如何通过python从ntlk中的给定单词(例如帮助)中提取这些信息?(或者也许有一个现成的清单)

0 投票
1 回答
820 浏览

stemming - 如何在使用 Mallet 进行主题建模时执行词干提取

我想使用 porter 算法在作为 Mallet 模型的 InputDirectory 中保存为单个文件的语料库上应用词干提取。有人可以帮助它如何执行吗?

0 投票
0 回答
871 浏览

c++ - 如何在 C++ 中使用词形还原(LemmaGen)

我正在使用 LemmaGen ( http://lemmatise.ijs.si ) 进行文本词形还原。通过在命令行中运行以下语句,我已经成功使用它。

但是,我实际上想以编程方式将它用作我的 C++ 项目中的库。任何人都知道如何使用 LemmaGen C++ API?谢谢!

或者任何人都可以建议其他可以在 C++ 中以编程方式使用的 C++ 词形还原库?

如果我问错了问题,请纠正我,因为我对 C++ 还是很陌生。

0 投票
1 回答
612 浏览

java - 如何在 Java 中使用斯坦福 nlp 库?

有谁知道如何使用 stanford nlp 库进行词形还原。它提供了一种 Maven 框架风格。但是,我只想在普通库中使用。我已经导入了 nlp 库。但是,它给了我一个 ClassNotFoundException。

java.lang.ClassNotFoundException: org.slf4j.LoggerFactory

关于需要为此词形还原器添加哪些最小库的任何想法?

0 投票
1 回答
5051 浏览

python - Python中更快的词形还原技术

我试图找到一种更快的方法来使用 NLTK Word Net Lemmatizer对列表(命名为text )中的单词进行词形还原。显然这是我整个程序中最耗时的步骤(使用 cProfiler 找到相同的步骤)。

以下是我试图优化速度的一段代码 -

使用 lemmatizer 将我的性能降低了 20 倍。任何帮助,将不胜感激。

0 投票
5 回答
69252 浏览

python - 如何使用 spacy lemmatizer 将单词转换为基本形式

我是 spacy 的新手,我想使用它的 lemmatizer 功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。

例子:

  • '单词'=> '单词'
  • “做过”=>“做”

谢谢你。

0 投票
1 回答
9834 浏览

python - Getting the root word using the Wordnet Lemmatizer

I need to find a common root word matched for all related words for a keyword extractor.

How to convert words into the same root using the python nltk lemmatizer?

  • Eg:
    1. generalized, generalization -> general
    2. optimal, optimized -> optimize (maybe)
    3. configure, configuration, configured -> configure

The python nltk lemmatizer gives 'generalize', for 'generalized' and 'generalizing' when part of speech(pos) tag parameter is used but not for 'generalization'.

Is there a way to do this?