问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Solr 自定义 Tokenizer Factory 随机工作
我是 Solr 的新手,我必须做一个过滤器来对文本进行词形还原以索引文档以及对查询进行词形还原。
在将其传递给标准分词器之前,我为词形还原文本创建了一个自定义分词器工厂。
在 Solr 分析部分进行测试工作得相当好(在索引上可以,但在查询上有时会分析两次文本),但是在索引文档时它只分析第一个文档,而在查询时它随机分析(它只分析第一个,然后分析另一个你必须等待一点时间)。这不是性能问题,因为我尝试修改文本而不是词形还原。
这是代码:
有了这个,它只索引第一个添加单词“lemmatized”到文本的文本。然后在第一次查询时,如果我搜索“example”这个词,它会查找“example”和“lemmatized”,所以它会返回第一个文档。在下一次搜索时,它不会修改查询。要进行一个新的查询,在查询中添加“lemmatized”词,我必须等待几分钟。
怎么了?
谢谢你们。
python-2.7 - 词形还原使语料库变得庞大
使用 ipython 2.7 和非 Ascii 字符的语料库。
清理过程似乎很好,但是一旦我使用 Wordnet 或 Porter 对语料库进行词形还原,文件的大小就会成倍增加。请看下面的代码
和例行公事
似乎使语料库大了 10 倍。去除停用词和词法提取的目标不应该减少语料库的大小吗?
我尝试过调整缩进,但我觉得可能有一个比“追加”例程更有效的循环,但我更关心内存的指数增长。
我正在研究这里的例子
http://stanford.edu/~rjweiss/public_html/IRiSS2013/text2 任何帮助或指导将不胜感激
r - R中的Wordnet Lemmatizer导致空列表
我有以下代码来使用来自 wordnet 的 R 中的 lemmatizer,但是当输入向量是一个包含多个单词的字符串时,输出是一个空列表。
使用的代码:
我该如何克服呢?提前致谢!
java - Solr Tokenizer 添加词形还原器的问题
我正在向 Solr 添加一个文本词形还原器。我必须处理整个文本,因为词形还原中的上下文很重要。
我在互联网上得到了这段代码,我做了一些修改
http://grokbase.com/t/lucene/solr-user/138d0qn4v0/issue-with-custom-tokenizer
我添加了我们的 lemmatizer 并更改了这一行
为了这
现在,如果我使用 Solr Admin analisys,索引或查询值没有问题。我写了这个短语,当我分析值时,结果是文本很好地进行了词形还原。
问题是当我在 Query 部分进行查询和索引文档时。检查调试查询我可以看到这一点。如果我在“naiz_body”中询问“korrikan”文本(意思是“正在运行”),则该文本已得到很好的词形还原。
现在,如果此刻我要求“jolasten”文本(意思是“正在播放”),则文本不会词形化,并且 parsedquery 和 parsedquery_toString 不会更改。
如果我稍等片刻(或者如果我停止 solr 并运行它)并要求输入“jolasten”文本,我会得到很好的词形还原
为什么?
这是代码:
谢谢你们!
编辑:
回答@alexandre-rafalovitch Admin UI 中的分析屏幕运行良好。如果我进行查询或索引文本,则文本会很好地进行词形还原。问题出在查询 UI 中。如果我首先调用 lemmatizer 进行查询,但第二个看起来像使用缓冲的第一个 lemmatized 文本并直接调用 incrementToken。当我进行此查询时,请参阅代码输出:在分析 UI 中,如果我查询 Korrikan 然后查询 Jolasten 它输出以下内容:
如果我在 Query UI 上进行此查询,它会输出以下内容:
在第二个中,它没有创建标记器,看起来像是重置了它,但它读取了旧文本。
我写信给代码所有者,他回复我查看 TrieTokenizer。
python - 如何对大量数据进行词形还原?
我需要对大量数据(约 1000 万行)实施词形还原。Python nltk 库处理大量数据时速度非常慢。还有其他选择吗?
r - 使用 wordnet 对文档语料库进行词形还原时的 R 错误
我正在尝试使用 wordnet 库对 R 中的文档语料库进行 lemmatizzate。这是代码:
但是在运行这个时。我有这个错误:
这些是堆栈调用:
怎么了?
nlp - 如何解决 StandfordOpenNLP 错误
我已经下载了 StanfordOpenNLP 并尝试使用它的 lemmatiser。但它给了我一个错误如下,
不支持的 major.minor 版本 52.0
谁能告诉我如何解决这个问题。
java - Lucene - 默认搜索词形还原/词干
默认搜索是否Lucene
对单词进行词形还原/词干化?
例如,当使用本示例中的代码时,文档中的单词是按原样使用还是转换为基本形式(即管理 -> 管理),如果是,它使用什么默认词形还原器?
python - 使用 NLTK 加载并行语料库并对英语句子进行词形还原
我有一个格式如下的语料库:
每个句子都被标记化(由 whitespac 分隔)。
现在我需要使用 NLTK 加载这些句子。我怎样才能做到这一点 ?我可以使用 CorpusReader 中的什么方法?
在这个例子中,我可以加载 NLTK 提供的 comtrans 语料库:
事实上,我需要做同样的事情,但我自己创建了一个文件。
在最后一步,我需要对英语句子的每个单词进行词形还原。
nltk - 如何从原始文本中获取正确的同义词集?
我需要使用 path_similarity 方法创建一个表,其中包含来自任何原始文本的单词(同义词集)之间的关系。
如何从原始文本中获取每个单词的正确同义词集?
我可以像这样获得引理和 POS 标签:
但是我如何获得正确的同义词集/感觉编号?