问题标签 [lemmatization]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

393 问题

0 投票

0 回答

263 浏览

python - 应用词形还原或词干提取时，形容词不分组到其词根（名词）

例如，要词形还原的词是“managerial”或“financial”。但是词形还原不支持将管理分组为“经理”或将财务分组为“财务”。可以使用什么替代方法从形容词中获取词根（名词）？

2016-04-04T08:46:26.920

0 投票

3 回答

133 浏览

python - 如何让 ologist 和 ology 这样的词词干/词形还原到同一个词根？

我一直在玩NLTK中的一堆词干分析器和词形还原器，但没有一个能满足我的要求。我有一堆词，如“radiologist”、“radiology”、“cardiologist”、“cardiology”等……我想让 *ologist 与 *ology 同一个桶。我在 Python 中尝试过 PorterStemmer、SnowballStemmer 和 WordNet 的 Lemmatizer，但没有将它们发送到同一个存储桶。似乎词干提取应该可以做到这一点，而且这些词并不少见。您将如何实现预期的结果？

python nltk stemming lemmatization

2016-04-06T23:58:06.447

0 投票

1 回答

210 浏览

java - 构建 Java Lemmatizer

我正在尝试使用 Java API（没有斯坦福提供的 Apache OpenNLP）来构建一个标记器。我已经能够通过使用正则表达式和 Java Pattern/Matcher 来分离单词：

我现在想找到这个词的引理。由于许可问题，我不想使用 StanfordNLP。接下来是什么？我想我确实需要一本字典作为参考/比较的模型。和 ...？有人做过吗？尝试使用 Java 构建单词 lemmatizer？提前致谢。:)

java regex lemmatization

2016-04-29T03:59:03.480

0 投票

1 回答

1741 浏览

python - ntlk：如何获得词的变化

我有一个单词列表，将近 5000 个英语单词，对于每个单词，我需要这些屈折形式：

名词：单数和复数

动词：不定式，现在简单，现在简单第三人称，过去简单，现在分词（ing 形式），过去分词

形容词：比较级和最高级

副词

如何通过python从ntlk中的给定单词（例如帮助）中提取这些信息？（或者也许有一个现成的清单）

python nltk lemmatization inflection

2016-05-05T17:33:54.277

0 投票

1 回答

820 浏览

stemming - 如何在使用 Mallet 进行主题建模时执行词干提取

我想使用 porter 算法在作为 Mallet 模型的 InputDirectory 中保存为单个文件的语料库上应用词干提取。有人可以帮助它如何执行吗？

stemming topic-modeling mallet lemmatization

2016-05-10T18:13:40.667

0 投票

0 回答

871 浏览

c++ - 如何在 C++ 中使用词形还原（LemmaGen）

我正在使用 LemmaGen ( http://lemmatise.ijs.si ) 进行文本词形还原。通过在命令行中运行以下语句，我已经成功使用它。

但是，我实际上想以编程方式将它用作我的 C++ 项目中的库。任何人都知道如何使用 LemmaGen C++ API？谢谢！

或者任何人都可以建议其他可以在 C++ 中以编程方式使用的 C++ 词形还原库？

如果我问错了问题，请纠正我，因为我对 C++ 还是很陌生。

c++nlp lemmatization

2016-05-11T01:12:31.563

0 投票

1 回答

612 浏览

java - 如何在 Java 中使用斯坦福 nlp 库？

有谁知道如何使用 stanford nlp 库进行词形还原。它提供了一种 Maven 框架风格。但是，我只想在普通库中使用。我已经导入了 nlp 库。但是，它给了我一个 ClassNotFoundException。

java.lang.ClassNotFoundException: org.slf4j.LoggerFactory

关于需要为此词形还原器添加哪些最小库的任何想法？

java text-mining lemmatization

2016-05-16T05:00:04.020

0 投票

1 回答

5051 浏览

python - Python中更快的词形还原技术

我试图找到一种更快的方法来使用 NLTK Word Net Lemmatizer对列表（命名为text ）中的单词进行词形还原。显然这是我整个程序中最耗时的步骤（使用 cProfiler 找到相同的步骤）。

以下是我试图优化速度的一段代码 -

使用 lemmatizer 将我的性能降低了 20 倍。任何帮助，将不胜感激。

python performance python-3.x nltk lemmatization

2016-06-24T18:21:14.670

0 投票

5 回答

69252 浏览

python - 如何使用 spacy lemmatizer 将单词转换为基本形式

我是 spacy 的新手，我想使用它的 lemmatizer 功能，但我不知道如何使用它，就像我进入单词字符串一样，它将以单词的基本形式返回字符串。

例子：

'单词'=> '单词'
“做过”=>“做”

谢谢你。

python nltk spacy lemmatization

2016-08-04T09:04:54.493

0 投票

1 回答

9834 浏览

python - Getting the root word using the Wordnet Lemmatizer

I need to find a common root word matched for all related words for a keyword extractor.

How to convert words into the same root using the python nltk lemmatizer?

Eg:
1. generalized, generalization -> general
2. optimal, optimized -> optimize (maybe)
3. configure, configuration, configured -> configure

The python nltk lemmatizer gives 'generalize', for 'generalized' and 'generalizing' when part of speech(pos) tag parameter is used but not for 'generalization'.

Is there a way to do this?

python nlp nltk wordnet lemmatization

2016-09-03T03:10:45.840

1 2 3 4 5 6 7 8 9 10

问题标签 [lemmatization]

Reference