问题标签 [lemmatization]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

393 问题

0 投票

2 回答

3777 浏览

java - 开源 Java 词形还原器

我想问一下你是否知道任何开源的 java 实现的词法分析器。或者，如果不是开源的，至少可以使用任何 java 实现的词形还原器，而无需支付许可证费用。

java lemmatization

2012-12-06T15:23:09.930

0 投票

1 回答

227 浏览

php - 避免匹配具有不同含义的流行词的词干提取

我目前正在使用 PorterStemmer 来识别派生词。但是，我遇到了一个问题，这些词的含义不同但似乎有。例如：
Marketand Marketing
Wineand Winning
etc..
有不同的含义，但 PorterStemmer 将它们标识为相同。

哪些开放工具能够克服这些问题？带有极端案例的字典？更高级的词干分析器？

最好是可以通过 PHP 轻松访问的东西。

2013-01-07T08:18:00.310

0 投票

1 回答

1380 浏览

c++ - NLP：使用 lemmaGen c++ 进行词形还原

我正在增强一个聊天机器人，我希望从输入句子中找到单词的引理。聊天机器人是用 c++ 编写的，我发现了一个免费的开源词形还原工具，称为 LemmaGen。我已经下载了 c++ 的 2.2 版，但它没有关于如何引用甚至使用它的文档。

过去有没有人使用 LemmaGen for c++ 的经验？任何信息都会有所帮助。非常感谢

c++nlp lemmatization

2013-01-28T19:20:05.103

0 投票

1 回答

3724 浏览

r - 如何使用 Wordnet 在 R 中进行词形还原？

我想在 R 中使用 Wordnet 的 getLemma 函数对语料库进行词形还原。但我不太确定如何使用它。

这是使用 R. 中的 wordnet 包进行词形还原的文档。

我的问题是我有一个包含 5000 个单词的文档，在这种情况下，我想将每个单词转换为其基本/根单词。例如：发烧->发烧；发烧-->发烧

我想对语料库中的所有单词进行词形还原，并且不会将其限制为单词 StartingWith...，我也不明白数字 5 在terms <- getIndexTerms("NOUN", 5, filter)

如果有人可以为我解决这个问题，那就太好了。

谢谢

r wordnet lemmatization

2013-02-18T17:51:29.470

0 投票

1 回答

3627 浏览

r - 用于 R 的 Wordnet Lemmatizer

我想使用wordnet词形还原器来词形化单词a

我转换a成语料库并进行预处理步骤（如停用词删除、词形还原等）

我想通过以下方式进行词形还原，

但我得到这个错误

我的想法是对整个语料库进行词形还原，而不是一个词，如何实现？

r nlp wordnet lemmatization

2013-02-19T07:39:53.780

0 投票

3 回答

7734 浏览

installation - TreeTagger 安装成功，但无法打开 .par 文件

有谁知道如何解决这个文件读取错误，TreeTagger因为它是一种常见的自然语言处理工具，用于POS标记、词形还原和分块句子？

正如http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txt所暗示的，我没有遇到任何可能的安装问题。我已按照网页上的说明进行操作，并且已正确安装（http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux）：

但是当我尝试测试软件时，我得到了这些错误：

installation nlp stemming pos-tagger lemmatization

2013-03-19T15:17:27.657

0 投票

8 回答

82057 浏览

python - python中的wordnet词形还原和pos标记

我想在 python 中使用 wordnet lemmatizer，并且我了解到默认的 pos 标记是 NOUN，并且它不会为动词输出正确的 lemma，除非 pos 标记明确指定为 VERB。

我的问题是，为了准确地执行上述词形还原，最好的方法是什么？

我使用了 pos 标记，nltk.pos_tag并且在将树库 pos 标签集成到 wordnet 兼容的 pos 标签时迷失了方向。请帮忙

我得到了 NN、JJ、VB、RB 中的输出标签。如何将这些更改为与 wordnet 兼容的标签？

我还必须nltk.pos_tag()使用标记的语料库进行训练，还是可以直接在我的数据上使用它来评估？

python nltk wordnet lemmatization

2013-03-23T12:23:54.323

0 投票

4 回答

339 浏览

nlp - 有开源的自学词干分析器吗？

我需要实现某种词干分析器/词形还原器。我有一些不同形式的单词（几千个）。它不是形态词典，只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗？有没有可以使用的开源实现？

nlp stemming morphological-analysis lemmatization

2013-04-09T16:46:00.253

0 投票

2 回答

6517 浏览

nltk - 是否可以加快 Wordnet Lemmatizer？

我在 Brown Corpus 上通过 NLTK 使用 Wordnet Lemmatizer（以确定其中的名词是更多地以单数形式还是复数形式使用）。
IE from nltk.stem.wordnet import WordNetLemmatizer
l = WordnetLemmatizer()

我注意到即使是最简单的查询（例如下面的查询）也需要很长时间（至少一两秒）。
l("cats")

大概这是因为每个查询都必须与 Wordnet 建立网络连接？..
我想知道是否有办法仍然使用 Wordnet Lemmatizer 但它的执行速度要快得多？例如，将 Wordnet 下载到我的机器上对我有帮助吗？或者有什么其他建议？

我试图弄清楚 Wordnet Lemmatizer 是否可以做得更快，而不是尝试不同的 lemmatizer，因为我发现它在 Porter 和 Lancaster 等其他工具中效果最好。

nltk wordnet lemmatization

2013-04-24T00:30:58.720

0 投票

1 回答

335 浏览

nlp - 在 scikit-learn 中计算 n-gram 时处理同形异义词

我正在使用 TfIdfVectorizer 来计算文本中的 n-gram，但我需要先对其进行词形还原。一种书面形式可以对应不同的引理，所以都应该计算在内。如何在 scikit-learn 上下文中处理它？我是否需要编写分析器并将其传递给 TfIdfVectorizer？它是如何工作的？

nlp scikit-learn tf-idf lemmatization

2013-05-07T10:25:54.383

1 2 3 4 5 6 7 8 9 10

问题标签 [lemmatization]

Reference