问题标签 [lemmatization]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

393 问题

0 投票

1 回答

1186 浏览

java - Solr 自定义 Tokenizer Factory 随机工作

我是 Solr 的新手，我必须做一个过滤器来对文本进行词形还原以索引文档以及对查询进行词形还原。

在将其传递给标准分词器之前，我为词形还原文本创建了一个自定义分词器工厂。

在 Solr 分析部分进行测试工作得相当好（在索引上可以，但在查询上有时会分析两次文本），但是在索引文档时它只分析第一个文档，而在查询时它随机分析（它只分析第一个，然后分析另一个你必须等待一点时间）。这不是性能问题，因为我尝试修改文本而不是词形还原。

这是代码：

有了这个，它只索引第一个添加单词“lemmatized”到文本的文本。然后在第一次查询时，如果我搜索“example”这个词，它会查找“example”和“lemmatized”，所以它会返回第一个文档。在下一次搜索时，它不会修改查询。要进行一个新的查询，在查询中添加“lemmatized”词，我必须等待几分钟。

怎么了？

谢谢你们。

2014-06-26T09:43:19.137

0 投票

1 回答

486 浏览

python-2.7 - 词形还原使语料库变得庞大

使用 ipython 2.7 和非 Ascii 字符的语料库。

清理过程似乎很好，但是一旦我使用 Wordnet 或 Porter 对语料库进行词形还原，文件的大小就会成倍增加。请看下面的代码

和例行公事

似乎使语料库大了 10 倍。去除停用词和词法提取的目标不应该减少语料库的大小吗？

我尝试过调整缩进，但我觉得可能有一个比“追加”例程更有效的循环，但我更关心内存的指数增长。

我正在研究这里的例子

http://stanford.edu/~rjweiss/public_html/IRiSS2013/text2 任何帮助或指导将不胜感激

python-2.7 ipython nltk corpus lemmatization

2014-08-13T18:17:52.160

0 投票

0 回答

293 浏览

r - R中的Wordnet Lemmatizer导致空列表

我有以下代码来使用来自 wordnet 的 R 中的 lemmatizer，但是当输入向量是一个包含多个单词的字符串时，输出是一个空列表。

使用的代码：

我该如何克服呢？提前致谢！

r wordnet sentiment-analysis lemmatization

2014-08-26T08:11:29.583

0 投票

2 回答

650 浏览

java - Solr Tokenizer 添加词形还原器的问题

我正在向 Solr 添加一个文本词形还原器。我必须处理整个文本，因为词形还原中的上下文很重要。

我在互联网上得到了这段代码，我做了一些修改

http://grokbase.com/t/lucene/solr-user/138d0qn4v0/issue-with-custom-tokenizer

我添加了我们的 lemmatizer 并更改了这一行

为了这

现在，如果我使用 Solr Admin analisys，索引或查询值没有问题。我写了这个短语，当我分析值时，结果是文本很好地进行了词形还原。

问题是当我在 Query 部分进行查询和索引文档时。检查调试查询我可以看到这一点。如果我在“naiz_body”中询问“korrikan”文本（意思是“正在运行”），则该文本已得到很好的词形还原。

现在，如果此刻我要求“jolasten”文本（意思是“正在播放”），则文本不会词形化，并且 parsedquery 和 parsedquery_toString 不会更改。

如果我稍等片刻（或者如果我停止 solr 并运行它）并要求输入“jolasten”文本，我会得到很好的词形还原

为什么？

这是代码：

谢谢你们！

编辑：

回答@alexandre-rafalovitch Admin UI 中的分析屏幕运行良好。如果我进行查询或索引文本，则文本会很好地进行词形还原。问题出在查询 UI 中。如果我首先调用 lemmatizer 进行查询，但第二个看起来像使用缓冲的第一个 lemmatized 文本并直接调用 incrementToken。当我进行此查询时，请参阅代码输出：在分析 UI 中，如果我查询 Korrikan 然后查询 Jolasten 它输出以下内容：

如果我在 Query UI 上进行此查询，它会输出以下内容：

在第二个中，它没有创建标记器，看起来像是重置了它，但它读取了旧文本。

我写信给代码所有者，他回复我查看 TrieTokenizer。

java solr lucene lemmatization

2014-09-03T11:53:05.693

0 投票

1 回答

936 浏览