问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 R 中执行词形还原?
这个问题可能与R 或 python 中的 Lemmatizer (am, are, is -> be?)重复,但我再次添加它,因为前一个问题已关闭,说它太宽泛,唯一的答案不是高效(因为它为此访问了一个外部网站,这太慢了,因为我有非常大的语料库来查找引理)。所以这个问题的一部分将类似于上面提到的问题。
根据维基百科,词形还原定义为:
语言学中的词形还原(或词形还原)是将单词的不同变形形式组合在一起的过程,以便可以将它们作为单个项目进行分析。
一个简单的谷歌搜索 R 中的 lemmatization只会指向 R 的包wordnet
。当我尝试这个包时,期望c("run", "ran", "running")
输入到 lemmatization 函数的字符向量会导致c("run", "run", "run")
,我看到这个包只提供类似于grepl
通过各种过滤器的功能的功能名字和字典。
包中的示例代码wordnet
,它最多提供 5 个以“car”开头的单词,因为过滤器名称说明了这一点:
以上不是我正在寻找的词形还原。我正在寻找的是,使用R
我想找到单词的真正根源:(例如 from c("run", "ran", "running")
to c("run", "run", "run")
)。
plugins - GATE 中 RASP lemmatizer 的问题(使用 Mac)
我正在分析英文小说以从中提取相关的语言信息。为此,我正在使用 GATE 并需要一个词形还原器,因此我尝试将 RASP 工具与建议的示例管道之一一起使用:1) RegEx Sentence Splitter 2) RAPS2 Tokenizer 3) RASP2 POS Tagger 4) RASP 2形态分析器 5) RASP2 解析器。
我使用的是桌面 Mac (OS X 10.9.4) 和最新版本的 GATE。当我在 GATE 的“处理资源”中加载 RegEx Sentence Splitter 时,我没有问题。但是,当我尝试加载第一个 RAPS 工具 RAPS2 Tokenizer 时,我收到一条错误消息,提示“gate.creole.ResourceInstantiationException: java.lang.Exception: Executable /Applications/gate-8.0-build4825-ALL/plugins/Parser_RASP/ resources/tokenise/token.x86_64_mac os x 不存在于 com.digitalpebble.rasp2.token.RASPTokenizer.init(RASPTokenizer.java:71) at gate.Factory.createResource(Factory.java:432) at gate.gui.NewResourceDialog $4.run(NewResourceDialog.java:250) at java.lang.Thread.run(Thread.java:745) 原因:java.lang.Exception: Executable /Applications/gate-8.0-build4825-ALL/plugins/Parser_RASP/资源/令牌化/令牌。
并且 RASP2 Tokenizer 不会加载到 GATE 中。
你能告诉我这是为什么吗?怎么了?我该如何解决?
solr - Solr 中带有翻译的索引文本
我正在用两种语言(西班牙语和巴斯克语)在 Solr 中索引一些文章。我正在使用两个词形还原器,每种语言一个(西班牙语词形还原器 SL 和巴斯克词形还原器 BL)并使用同义词。
我有四个字段用于 eacyh 文本字段。例如,对于 article_body 我有:
body_S(使用 SL 索引和搜索)
body_S2B(用 SL 索引,翻译成巴斯克语并用 BL 搜索)
body_B(使用 BL 索引和搜索)
body_B2S(用 BL 索引,翻译成西班牙语并用 SL 搜索)
我使用从 body_S 到 body_S2B 和 body_B 到 body_B2S 的复制字段。在搜索时,如果我用巴斯克语搜索,我会在 body_B 和 body_S2B 中搜索,如果我用西班牙语搜索,我会在 body_S 和 body_B2S 中搜索。
我的问题是......我做得对还是有更简单的方法来做到这一点?谢谢
java-7 - 使用 Stanford CorNLP 手动标记单词
我有一个资源,我确切地知道单词的类型。我必须对它们进行词形还原,但为了获得正确的结果,我必须手动标记它们。我找不到任何用于手动标记单词的代码。我使用以下代码,但它返回错误的结果。即“绘画”为“绘画”,我期望“绘画”。
我必须在单词上运行 lemmatizer,而不是在自动完成 pos 标记的句子上运行。所以我会首先手动标记单词,然后找到它们的引理。一些示例代码的帮助或对某些站点的引用将是很大的帮助。
nlp - 阿拉伯语词形还原和斯坦福 NLP
我尝试进行词形还原,即识别词条和可能的动词的阿拉伯语词根,例如:يتصل ==> lemma(动词的不定式)==> اتصل ==> 词根(三字词根 / Jidr thoulathi)== > وصل
你认为斯坦福 NLP 能做到这一点吗?
此致,
java - 词干和词形还原中未涵盖的 Word 基本形式
我需要找到单词的基本形式。我经历过类似的问题。我正在使用 porter stemmer 和 stanford core NLP 进行词干提取和词形还原。考虑以下 3 组单词 A、B、C:-
可以看出Set C中的词干是相等的,所以我们可以说真实的,真正的和真实性有一定的关系。但同样不能应用于 A 和 B 中在语义上确实相关的单词。是否有可能找到这些词之间的关系?如果是,那么如果它不是词干/词形还原,那么这种关系是什么。
lucene - 在java中词干和词形还原的最轻量级库
我有一个简单的项目需要实现这种事情。
有人可以指出可以实现这一目标的最轻量级的库吗?(我知道有像 Lucene、CoreNLP 等这样的库。)但是这些都非常重,我真的只需要一个词干分析器/词法分析器
谢谢!
java - StanfordNLP lemmatization 无法处理单词
我一直在试验斯坦福 NLP 工具包及其词形还原功能。我很惊讶它是如何将某些单词词形还原的。例如:
它不能转换成同一个引理depressing
。depressed
与confusing
和confused
发生hopelessly
类似情况hopeless
。我感觉它唯一能做的就是删除s
如果单词是这种形式(例如feels -> feel
)。这种行为对于英语中的 Lematizatiors 来说是否正常?我希望他们能够将常见单词的这种变体转换为相同的引理。
如果这是正常的,我应该使用词干分析器吗?而且,有没有办法在 StanfordNLP 中使用像 Porter(Snowball 等)这样的词干分析器?他们的文档中没有提到词干分析器;但是,API 中有一些CoreAnnotations.StemAnnotation
。如果无法使用 StanfordNLP,您推荐在 Java 中使用哪些词干分析器?
scala - Scala 和 Spark 中最简单的文本词形还原方法
我想在文本文件上使用词形还原:
预期输出为:
有谁能够帮我 ?谁知道在 Scala 和 Spark 中实现的最简单的词形还原方法?