问题标签 [kuromoji]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1434 浏览

elasticsearch - Elasticsearch:无法使用 Kuromoji 阅读表单过滤器进行搜索

我正在使用带有 Kuromoji 插件 1.4.0 的 Elasticsearch 0.90.1。

我创建了一个新索引,使用 Kuromoji 作为我的default分析器:

结果:

阅读表单标记过滤器似乎工作正常(汉字被标准化为片假名):

结果:

索引文档:

结果:

索引文档匹配通配符查询:

结果:

但是,当我使用日语搜索时,它不匹配:

结果:

结果:

结果:

我想知道分析器是否未用于搜索查询,但指定分析器没有帮助:

结果:

顺便说一句,如果我禁用令牌过滤器,一切正常。

我究竟做错了什么?

0 投票
1 回答
258 浏览

java - elasticsearch-analysis-kuromoji 的行为不是我所期望的

我一直在使用 elasticsearch-analysis-kuromoji 进行日语搜索,但我遇到了两个非常奇怪的行为,第一个是我搜索的字符不起作用,比如 - '输出贸易' 将不起作用,除非我将其传递为“输出出贸易易”,每个字符之间有空格。像 ント 这样的字符也不会被搜索。

这是我的配置:

我是不是配置错了,还是我需要一个不同的标记器来表示字符,比如:'输出贸易和 ント'

谢谢你

0 投票
1 回答
380 浏览

ruby-on-rails - 创建索引时的 Elasticsearch 错误可能是由于模块 Kuromoji 未正确安装

我正在尝试为我刚刚获得访问权限的 Rails 应用程序设置本地环境,该应用程序使用 Elasticsearch 1.3 以及两个模块(kuromoji 和 smartcn)

我已按照说明将 Elasticsearch 与模块一起安装,当我启动 elasticsearch 时,我得到以下输出:(请注意 plugins 行,这让我相信它们已被加载)

但是,当我尝试运行 rake 任务来索引和导入数据时,我收到以下错误,这让我相信 Kuromoji 没有加载或者可能发生了其他事情。

感谢您在此处确定问题的任何帮助。

0 投票
2 回答
236 浏览

elasticsearch - Elasticsearch/Kuromoji:如何在 Unidic 中使用 Kuromoji

弹性搜索 1.7

我们想在 Elasticsearch 上使用 Unidic 测试 Kuromoji。编译 kuromoji 给了我几个不同字典的罐子。

有没有一种简单的方法可以用基于 unidic-based-kuromoji 替换 ipadic-based-kuromoji?

谢谢。

0 投票
2 回答
2164 浏览

elasticsearch - 如何通过 Elasticsearch 获得分析的字数?

我想计算分析的每个令牌。

首先,我尝试了以下代码:

映射

查询

插入数据后查询索引,得到以下结果:

不幸的是,术语聚合只提供一个 doc_count。这不是字数。_index['text']['TERM'].df()所以,我认为使用and获得近似字数的方法_index['text']['TERM'].ttf()

也许近似的字数是以下等式:

“期限”是存储桶中的关键。我试图编写一个脚本化的度量聚合,但我不知道如何获取存储桶中的键。

如何获取存储桶中的密钥?如果不可能,我怎样才能得到分析的字数?

0 投票
1 回答
141 浏览

elasticsearch - ElasticSearch 2.4.1 和 Kuromoji 插件在搜索查询中指定字段

两周前,我刚刚在我的项目中使用了 ElaticSearch(版本 2.4.1),如果我在查询字符串中指定字段,我会遇到问题。
我想使用 Kuromoji 插件和 n-gram 标记器来搜索日语数据。

在我的查询中,如果我没有指定字段(例如:“内容”),我会在结果中收到 2 条记录。

但是当我在上面的查询中使用“内容”字段时,结果没有记录。(在我的项目中,我想搜索“内容”字段。)

我也在步骤 1 中使用了属性“highlight”,但结果不包含“highlight”块

我想问:在第2步(上面)中,查询字符串中指定了哪些字段?product.Content, 或者是其他东西?

如果我不使用 Kuromoji 插件,步骤 2 中的查询结果有 2 条记录。所以我认为 Kuromoji 插件与结果有关。有人可以帮我解决这个问题吗?

这是我在 yaml 中的映射和配置:

0 投票
1 回答
350 浏览

java - 休眠搜索 | Lucene Kuromojo Analyzer 取决于方法名称

我有我的实体类 FeatureMeta 使用两个分析器英语和日语注释。

在我的存储库类中,我将搜索 FeatureMeta 实体的方法命名为“findFeatures”。

但是当我尝试访问存储库中的“findFeatures”方法时,会引发以下异常:

引起:java.lang.IllegalArgumentException:没有枚举常量 org.apache.lucene.analysis.ja.JapaneseTokenizer.Mode.FINDFEATURES

请注意,不知何故,“JapaneseTokenizerFactory”尝试使用我在存储库中使用的方法名称的值(findFeatures)创建一个枚举。

我不确定为什么 JapaneseTokenizerFactory 的逻辑和我的存储库名称之间存在关系。

实体类:

存储库:

原因:org.hibernate.search.exception.SearchException:无法实例化 Tokenizer 工厂类:org.apache.lucene.analysis.ja.JapaneseTokenizerFactory。实现类无法识别应用的参数。在 org.hibernate.search.util.impl.ClassLoaderHelper.instanceFromClass(ClassLoaderHelper.java:156) 在 org.hibernate.search.analyzer.impl.LuceneAnalyzerBuilder.buildAnalysisComponent(LuceneAnalyzerBuilder.java:147) 在 org.hibernate.search.analyzer .impl.LuceneAnalyzerBuilder.buildAnalyzer(LuceneAnalyzerBuilder.java:105) 在 org.hibernate.search.analyzer.impl.LuceneAnalyzerBuilder.buildAnalyzer(LuceneAnalyzerBuilder.java:76) 在 org.hibernate.search.analyzer.impl.NamedLuceneAnalyzerReference.createAnalyzer(NamedLuceneAnalyzerReference .java:64) 在 org.hibernate.search.analyzer.impl。

0 投票
0 回答
302 浏览

elasticsearch - 弹性搜索用户词典

我想使用符号“#”作为弹性搜索的用户字典但是,在用户字典中设置字符“C#”会导致错误 ES 版本 5.6 我正在使用 Kuromoji 插件

用户词典

错误

0 投票
1 回答
995 浏览

text - 如何拆分日文文本?

使用 Java 分割日文文本的最佳方法是什么?例如,对于以下文本:

我需要以下输出:

可以使用黑字吗?

0 投票
0 回答
78 浏览

elasticsearch - kuromoji 中的部分搜索查询