问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 应用词形还原或词干提取时,形容词不分组到其词根(名词)
例如,要词形还原的词是“managerial”或“financial”。但是词形还原不支持将管理分组为“经理”或将财务分组为“财务”。可以使用什么替代方法从形容词中获取词根(名词)?
python - 如何让 *ologist 和 *ology 这样的词词干/词形还原到同一个词根?
我一直在玩NLTK中的一堆词干分析器和词形还原器,但没有一个能满足我的要求。我有一堆词,如“radiologist”、“radiology”、“cardiologist”、“cardiology”等……我想让 *ologist 与 *ology 同一个桶。我在 Python 中尝试过 PorterStemmer、SnowballStemmer 和 WordNet 的 Lemmatizer,但没有将它们发送到同一个存储桶。似乎词干提取应该可以做到这一点,而且这些词并不少见。您将如何实现预期的结果?
java - 构建 Java Lemmatizer
我正在尝试使用 Java API(没有斯坦福提供的 Apache OpenNLP)来构建一个标记器。我已经能够通过使用正则表达式和 Java Pattern/Matcher 来分离单词:
我现在想找到这个词的引理。由于许可问题,我不想使用 StanfordNLP。接下来是什么?我想我确实需要一本字典作为参考/比较的模型。和 ...?有人做过吗?尝试使用 Java 构建单词 lemmatizer?提前致谢。:)
python - ntlk:如何获得词的变化
我有一个单词列表,将近 5000 个英语单词,对于每个单词,我需要这些屈折形式:
名词:单数和复数
动词:不定式,现在简单,现在简单第三人称,过去简单,现在分词(ing 形式),过去分词
形容词:比较级和最高级
副词
如何通过python从ntlk中的给定单词(例如帮助)中提取这些信息?(或者也许有一个现成的清单)
stemming - 如何在使用 Mallet 进行主题建模时执行词干提取
我想使用 porter 算法在作为 Mallet 模型的 InputDirectory 中保存为单个文件的语料库上应用词干提取。有人可以帮助它如何执行吗?
c++ - 如何在 C++ 中使用词形还原(LemmaGen)
我正在使用 LemmaGen ( http://lemmatise.ijs.si ) 进行文本词形还原。通过在命令行中运行以下语句,我已经成功使用它。
但是,我实际上想以编程方式将它用作我的 C++ 项目中的库。任何人都知道如何使用 LemmaGen C++ API?谢谢!
或者任何人都可以建议其他可以在 C++ 中以编程方式使用的 C++ 词形还原库?
如果我问错了问题,请纠正我,因为我对 C++ 还是很陌生。
java - 如何在 Java 中使用斯坦福 nlp 库?
有谁知道如何使用 stanford nlp 库进行词形还原。它提供了一种 Maven 框架风格。但是,我只想在普通库中使用。我已经导入了 nlp 库。但是,它给了我一个 ClassNotFoundException。
java.lang.ClassNotFoundException: org.slf4j.LoggerFactory
关于需要为此词形还原器添加哪些最小库的任何想法?
python - Python中更快的词形还原技术
我试图找到一种更快的方法来使用 NLTK Word Net Lemmatizer对列表(命名为text )中的单词进行词形还原。显然这是我整个程序中最耗时的步骤(使用 cProfiler 找到相同的步骤)。
以下是我试图优化速度的一段代码 -
使用 lemmatizer 将我的性能降低了 20 倍。任何帮助,将不胜感激。
python - 如何使用 spacy lemmatizer 将单词转换为基本形式
我是 spacy 的新手,我想使用它的 lemmatizer 功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。
例子:
- '单词'=> '单词'
- “做过”=>“做”
谢谢你。
python - Getting the root word using the Wordnet Lemmatizer
I need to find a common root word matched for all related words for a keyword extractor.
How to convert words into the same root using the python nltk lemmatizer?
- Eg:
- generalized, generalization -> general
- optimal, optimized -> optimize (maybe)
- configure, configuration, configured -> configure
The python nltk lemmatizer gives 'generalize', for 'generalized' and 'generalizing' when part of speech(pos) tag parameter is used but not for 'generalization'.
Is there a way to do this?