问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么即使 verb.exc 增加了正确的值,NLTK lemmatization 也有错误的输出?
当我打开 verb.exc 时,我可以看到
虽然我在代码中使用词形还原
这怎么可能发生?我在修改 wordNet 时是否有误解?
python - NLTK WordNet Lemmatizer - 如何删除未知单词?
我正在尝试在推文上使用 NLTK WordNet Lemmatizer。
我想删除所有在 WordNet 中找不到的单词(twitter 句柄等),但 WordNetLemmatizer.lemmatize() 没有反馈。如果找不到单词,它只会返回未更改的单词。
有没有办法检查是否在 WordNet 中找到了一个单词?
或者,有没有更好的方法从字符串中删除“正确的英语单词”以外的任何内容?
java - 没有JAVA字典的英语Lemmatizer?
我正在基于 lucene 的搜索中搜索一个单词,并且我想在 java 中将诸如“eating”、“eats”之类的字符串转换为“eat”。我搜索并找到了词形还原作为解决方案,但是我遇到的所有英语词形还原工具都使用词表或字典查找。是否有任何可以避免字典查找并提供高效率的词形还原器,可能是基于规则的词形还原器。是的,我不是在寻找“词干”。或是否有任何方法(不重要的准备使用库、任何算法、方法等)来获取根/原始单词。
python - 单词列表的词形还原
所以我有一个文本文件中的单词列表。我想对它们进行词形还原以删除具有相同含义但时态不同的单词。像尝试,尝试等。当我这样做时,我不断收到类似 TypeError: unhashable type: 'list' 的错误
如何对已经是标记的单词进行词形还原?
java - 如何在给定引理的情况下获得形态变化(首选java)
我目前正在使用 Stanford Core NLP 从文本中获取单词引理。斯坦福套件中有什么方法可以“反向”运行吗?例如,假设我有引理“come”并且我想获得动名词形式('VBG' POS 标签)“coming”。
如果这在斯坦福套件中不可用,任何人都可以推荐一个可以完成此任务的不同 Java 工具吗?
scala - 在 SBT 中使用工厂进行词形还原
我正在 scala 中编写脚本,以使用此链接中的 wordnetlemmatizer 对某些文本进行词形化。
API 说可以创建 lemmatizer 对象new wordNetLemmatizer(wordnet dir)
如何将 word net dir 的输入流作为参数传递给上面。
这是我的参考。
任何帮助将不胜感激。
regex - AWK - 形成语法形式
我有两个制表符分隔的文件。一个包含引理和词干,另一个包含形成语法形式所需的内容。
文件(引理和词干):
文件(后缀):
遵循和输出的规则:
也就是说,如果我只在括号中找到一个字母,我选择引理的最后一个辅音并将它添加到词干,如果我在括号中找到两个字母,我将最后一个辅音加倍并将它添加到词干。还添加了括号中字母之后的内容。
双辅音表:
最后,我自己解决了这个问题。我展示了解决方案,以防它适用于任何 OP:
python - NLTK:词形还原器和 pos_tag
我建立了一个明文语料库,下一步是对我所有的文本进行词形还原。我正在使用WordNetLemmatizer并且需要每个标记的pos_tag以免遇到问题,例如爱 -> 引理 = 爱和爱 -> 引理 = 爱...
我认为默认的 WordNetLemmatizer-POS-Tag 是 n (=Noun),但是如何使用 pos_tag?我认为预期的 WordNetLemmatizer-POS-Tag 与我得到的 pos_tag 不同。有什么功能或什么可以帮助我吗?!?!
在这一行中,我认为 word_pos 是错误的,这就是错误原因
引理 = wordnet_lemmatizer.lemmatize(word,word_pos)
附加问题: pos_tag 是否足以用于我的词形还原或需要我另一个标记器?我的文字是歌词...
java - 有没有简单的方法以引理形式打印斯坦福类型的依赖对象?
这是代码。正确生成类型化的依赖项。有没有办法以引理形式打印那些类型化的依赖对象?
python - TypeError:'instancemethod' 对象没有属性 '__getitem__' 与 NLTK
我正在尝试使用 NLTK 运行这些代码:
结果出现了错误:
出了什么问题以及如何解决这个问题?谢谢!