问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 开源 Java 词形还原器
我想问一下你是否知道任何开源的 java 实现的词法分析器。或者,如果不是开源的,至少可以使用任何 java 实现的词形还原器,而无需支付许可证费用。
php - 避免匹配具有不同含义的流行词的词干提取
我目前正在使用 PorterStemmer 来识别派生词。但是,我遇到了一个问题,这些词的含义不同但似乎有。例如:
Market
and Marketing
Wine
and Winning
etc..
有不同的含义,但 PorterStemmer 将它们标识为相同。
哪些开放工具能够克服这些问题?带有极端案例的字典?更高级的词干分析器?
最好是可以通过 PHP 轻松访问的东西。
c++ - NLP:使用 lemmaGen c++ 进行词形还原
我正在增强一个聊天机器人,我希望从输入句子中找到单词的引理。聊天机器人是用 c++ 编写的,我发现了一个免费的开源词形还原工具,称为 LemmaGen。我已经下载了 c++ 的 2.2 版,但它没有关于如何引用甚至使用它的文档。
过去有没有人使用 LemmaGen for c++ 的经验?任何信息都会有所帮助。非常感谢
r - 如何使用 Wordnet 在 R 中进行词形还原?
我想在 R 中使用 Wordnet 的 getLemma 函数对语料库进行词形还原。但我不太确定如何使用它。
这是使用 R. 中的 wordnet 包进行词形还原的文档。
我的问题是我有一个包含 5000 个单词的文档,在这种情况下,我想将每个单词转换为其基本/根单词。例如:发烧->发烧;发烧-->发烧
我想对语料库中的所有单词进行词形还原,并且不会将其限制为单词 StartingWith...,我也不明白数字 5 在terms <- getIndexTerms("NOUN", 5, filter)
如果有人可以为我解决这个问题,那就太好了。
谢谢
r - 用于 R 的 Wordnet Lemmatizer
我想使用wordnet
词形还原器来词形化单词a
我转换a
成语料库并进行预处理步骤(如停用词删除、词形还原等)
我想通过以下方式进行词形还原,
但我得到这个错误
我的想法是对整个语料库进行词形还原,而不是一个词,如何实现?
installation - TreeTagger 安装成功,但无法打开 .par 文件
有谁知道如何解决这个文件读取错误,TreeTagger
因为它是一种常见的自然语言处理工具,用于POS
标记、词形还原和分块句子?
正如http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txt所暗示的,我没有遇到任何可能的安装问题。我已按照网页上的说明进行操作,并且已正确安装(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux):
但是当我尝试测试软件时,我得到了这些错误:
python - python中的wordnet词形还原和pos标记
我想在 python 中使用 wordnet lemmatizer,并且我了解到默认的 pos 标记是 NOUN,并且它不会为动词输出正确的 lemma,除非 pos 标记明确指定为 VERB。
我的问题是,为了准确地执行上述词形还原,最好的方法是什么?
我使用了 pos 标记,nltk.pos_tag
并且在将树库 pos 标签集成到 wordnet 兼容的 pos 标签时迷失了方向。请帮忙
我得到了 NN、JJ、VB、RB 中的输出标签。如何将这些更改为与 wordnet 兼容的标签?
我还必须nltk.pos_tag()
使用标记的语料库进行训练,还是可以直接在我的数据上使用它来评估?
nlp - 有开源的自学词干分析器吗?
我需要实现某种词干分析器/词形还原器。我有一些不同形式的单词(几千个)。它不是形态词典,只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗?有没有可以使用的开源实现?
nltk - 是否可以加快 Wordnet Lemmatizer?
我在 Brown Corpus 上通过 NLTK 使用 Wordnet Lemmatizer(以确定其中的名词是更多地以单数形式还是复数形式使用)。
IE from nltk.stem.wordnet import WordNetLemmatizer
l = WordnetLemmatizer()
我注意到即使是最简单的查询(例如下面的查询)也需要很长时间(至少一两秒)。
l("cats")
大概这是因为每个查询都必须与 Wordnet 建立网络连接?..
我想知道是否有办法仍然使用 Wordnet Lemmatizer 但它的执行速度要快得多?例如,将 Wordnet 下载到我的机器上对我有帮助吗?或者有什么其他建议?
我试图弄清楚 Wordnet Lemmatizer 是否可以做得更快,而不是尝试不同的 lemmatizer,因为我发现它在 Porter 和 Lancaster 等其他工具中效果最好。
nlp - 在 scikit-learn 中计算 n-gram 时处理同形异义词
我正在使用 TfIdfVectorizer 来计算文本中的 n-gram,但我需要先对其进行词形还原。一种书面形式可以对应不同的引理,所以都应该计算在内。如何在 scikit-learn 上下文中处理它?我是否需要编写分析器并将其传递给 TfIdfVectorizer?它是如何工作的?