问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 nltk 和 wordnet 对复数名词进行词形还原
我想使用
问题是 POS 标记器知道“procaspases”是“NNS”,但是我如何将 NNS 转换为 wordnet,因为即使在词形还原器之后,“procaspases”仍然是“procaspaseS”。
java - MorphaStemmer Lemminizer 问题
我正在使用 MorphaStemmer 1.5 来获取单词的单数形式。但在这里它为每个单词提供词干基础。例如,如果搜索保龄球,它会给出碗。如果我使用 led 其给出的线索。我已经尝试了很多单词,它的工作正常,发现我们给出的任何单词,它都将其转换为它的基础。我需要限制这一点,只有在它有单数时才转换,否则返回相同?如果它只是复数,我只需要转换为它的基本形式。
有什么帮助吗?
solr - Solr 在运行查询之前修改搜索词
与此插件在索引时执行的操作相同(实现条件复制字段) https://wiki.apache.org/solr/UpdateRequestProcessor 我想在查询时执行相同的操作。
我使用这个插件对文本进行了一次词形还原,然后将词形还原的文本复制到不同的字段。
我想在查询时做同样的事情,但我找不到如何做(或者我不那么容易找到这个)。
所以我想要的是,如果用户搜索 X,在插件上执行此操作: y = process_text(y) 并假设我们有标题和正文进行此搜索:标题:y 正文:y 或者我们可能需要另一个原始文本field title:y body:y otherfield:x 有没有修改查询词的例子?谢谢你们
我会更好地解释它。
我有这些字段:text_en、text_en2de、text_de、text_de2en
我为英语、德语文本做了一个词形还原器。词形还原器需要时间对文本进行词形还原。
在查询时,我使用我所说的插件,并且只对文本进行一次词形还原。然后将词形还原的文本复制到这些字段。
但是,如果我必须在 text_en、text_de2en 上进行搜索...我必须对每个字段进行一次词形还原,这需要时间。
这就是为什么我想在查询时制作一个插件来获取 q 字段,对文本进行词形还原,然后将这个词形还原的文本重定向到我想要的字段。
例如,如果我制作一个自定义 SearchHandler(我认为我必须这样做,但我没有找到任何示例)我会配置它
然后,如果我进行类似q="running" 的搜索,插件将获取这些文本并在
java - 如何在 Java 中检索词位的所有变体?
我正在寻找一种方法来检索特定单词的词位的所有变体。
示例:运行->(运行,运行,运行,运行......)
我根据这篇文章尝试了斯坦福 NLP 。但是,引理注释器仅检索引理(运行 -> 运行),而不是完整的变体集。有没有办法用斯坦福 NLP 或其他 Java Lib/Framework 来做到这一点?
澄清:我不搜索词干分析器。另外,我想避免从头开始编写新算法来爬取 WordNet 或类似的字典。
python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK
最近我接触了 NLP,并尝试使用NLTK和TextBlob来分析文本。我想开发一个分析旅行者评论的应用程序,因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作:POS 标记和词形还原。我已经看到,在 NLTK 中,可以为句子标记化选择正确的语言,如下所示:
我还没有找到正确的方法来为不同语言的 POS Tagging 和 Lemmatizer 设置语言。如何为意大利语、法语、西班牙语或德语等非英语文本设置正确的语料库/词典?我还看到可以导入“TreeBank”或“WordNet”模块,但我不明白如何使用它们。否则,我在哪里可以找到相应的语料库?
你能给我一些建议或参考吗?请注意我不是 NLTK 的专家。
非常感谢。
nlp - 词性标注后词元化会产生意想不到的结果
我正在使用带有 nltk pos_tag 函数和 WordNetLemmatizer 的 python3.5。我的目标是展平我们数据库中的单词以对文本进行分类。我正在尝试使用 lemmatizer 进行测试,但在相同的令牌上使用 POS 标记器时遇到了奇怪的行为。在下面的示例中,我有一个包含三个字符串的列表,当在 POS 标记器中运行它们时,每个其他元素都作为名词(NN)返回,其余元素作为动词(VBG)返回。
这会影响词形还原。输出看起来像这样:
如果我将更多元素添加到相同字符串的列表中,则此相同模式将继续。我正在使用的完整代码是这样的:
python-2.7 - NLTK 词形还原错误结果
我使用了 NLTK 并得到了这样的错误结果:
我认为答案是“代码”而不是鱼。有没有办法解决这个问题或其他 python Lib 可以做得更好?
java - 如何对阿拉伯语文本进行词形还原
如何对阿拉伯语原始文本进行词形还原?
我熟悉 stanford nlp jars。(http://nlp.stanford.edu/projects/arabic.shtml)
但不幸的是,这并没有提供适当的词形还原。