问题标签 [kuromoji]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - Elasticsearch:无法使用 Kuromoji 阅读表单过滤器进行搜索
我正在使用带有 Kuromoji 插件 1.4.0 的 Elasticsearch 0.90.1。
我创建了一个新索引,使用 Kuromoji 作为我的default
分析器:
结果:
阅读表单标记过滤器似乎工作正常(汉字被标准化为片假名):
结果:
索引文档:
结果:
索引文档匹配通配符查询:
结果:
但是,当我使用日语搜索时,它不匹配:
结果:
结果:
结果:
我想知道分析器是否未用于搜索查询,但指定分析器没有帮助:
结果:
顺便说一句,如果我禁用令牌过滤器,一切正常。
我究竟做错了什么?
java - elasticsearch-analysis-kuromoji 的行为不是我所期望的
我一直在使用 elasticsearch-analysis-kuromoji 进行日语搜索,但我遇到了两个非常奇怪的行为,第一个是我搜索的字符不起作用,比如 - '输出贸易' 将不起作用,除非我将其传递为“输出出贸易易”,每个字符之间有空格。像 ント 这样的字符也不会被搜索。
这是我的配置:
我是不是配置错了,还是我需要一个不同的标记器来表示字符,比如:'输出贸易和 ント'
谢谢你
ruby-on-rails - 创建索引时的 Elasticsearch 错误可能是由于模块 Kuromoji 未正确安装
我正在尝试为我刚刚获得访问权限的 Rails 应用程序设置本地环境,该应用程序使用 Elasticsearch 1.3 以及两个模块(kuromoji 和 smartcn)
我已按照说明将 Elasticsearch 与模块一起安装,当我启动 elasticsearch 时,我得到以下输出:(请注意 plugins 行,这让我相信它们已被加载)
但是,当我尝试运行 rake 任务来索引和导入数据时,我收到以下错误,这让我相信 Kuromoji 没有加载或者可能发生了其他事情。
感谢您在此处确定问题的任何帮助。
elasticsearch - Elasticsearch/Kuromoji:如何在 Unidic 中使用 Kuromoji
弹性搜索 1.7
我们想在 Elasticsearch 上使用 Unidic 测试 Kuromoji。编译 kuromoji 给了我几个不同字典的罐子。
有没有一种简单的方法可以用基于 unidic-based-kuromoji 替换 ipadic-based-kuromoji?
谢谢。
elasticsearch - 如何通过 Elasticsearch 获得分析的字数?
我想计算分析的每个令牌。
首先,我尝试了以下代码:
映射:
查询:
插入数据后查询索引,得到以下结果:
不幸的是,术语聚合只提供一个 doc_count。这不是字数。_index['text']['TERM'].df()
所以,我认为使用and获得近似字数的方法_index['text']['TERM'].ttf()
。
也许近似的字数是以下等式:
“期限”是存储桶中的关键。我试图编写一个脚本化的度量聚合,但我不知道如何获取存储桶中的键。
如何获取存储桶中的密钥?如果不可能,我怎样才能得到分析的字数?
elasticsearch - ElasticSearch 2.4.1 和 Kuromoji 插件在搜索查询中指定字段
两周前,我刚刚在我的项目中使用了 ElaticSearch(版本 2.4.1),如果我在查询字符串中指定字段,我会遇到问题。
我想使用 Kuromoji 插件和 n-gram 标记器来搜索日语数据。
在我的查询中,如果我没有指定字段(例如:“内容”),我会在结果中收到 2 条记录。
但是当我在上面的查询中使用“内容”字段时,结果没有记录。(在我的项目中,我想搜索“内容”字段。)
我也在步骤 1 中使用了属性“highlight”,但结果不包含“highlight”块
我想问:在第2步(上面)中,查询字符串中指定了哪些字段?product.Content
, 或者是其他东西?
如果我不使用 Kuromoji 插件,步骤 2 中的查询结果有 2 条记录。所以我认为 Kuromoji 插件与结果有关。有人可以帮我解决这个问题吗?
这是我在 yaml 中的映射和配置:
java - 休眠搜索 | Lucene Kuromojo Analyzer 取决于方法名称
我有我的实体类 FeatureMeta 使用两个分析器英语和日语注释。
在我的存储库类中,我将搜索 FeatureMeta 实体的方法命名为“findFeatures”。
但是当我尝试访问存储库中的“findFeatures”方法时,会引发以下异常:
引起:java.lang.IllegalArgumentException:没有枚举常量 org.apache.lucene.analysis.ja.JapaneseTokenizer.Mode.FINDFEATURES
请注意,不知何故,“JapaneseTokenizerFactory”尝试使用我在存储库中使用的方法名称的值(findFeatures)创建一个枚举。
我不确定为什么 JapaneseTokenizerFactory 的逻辑和我的存储库名称之间存在关系。
实体类:
存储库:
原因:org.hibernate.search.exception.SearchException:无法实例化 Tokenizer 工厂类:org.apache.lucene.analysis.ja.JapaneseTokenizerFactory。实现类无法识别应用的参数。在 org.hibernate.search.util.impl.ClassLoaderHelper.instanceFromClass(ClassLoaderHelper.java:156) 在 org.hibernate.search.analyzer.impl.LuceneAnalyzerBuilder.buildAnalysisComponent(LuceneAnalyzerBuilder.java:147) 在 org.hibernate.search.analyzer .impl.LuceneAnalyzerBuilder.buildAnalyzer(LuceneAnalyzerBuilder.java:105) 在 org.hibernate.search.analyzer.impl.LuceneAnalyzerBuilder.buildAnalyzer(LuceneAnalyzerBuilder.java:76) 在 org.hibernate.search.analyzer.impl.NamedLuceneAnalyzerReference.createAnalyzer(NamedLuceneAnalyzerReference .java:64) 在 org.hibernate.search.analyzer.impl。
elasticsearch - 弹性搜索用户词典
我想使用符号“#”作为弹性搜索的用户字典但是,在用户字典中设置字符“C#”会导致错误 ES 版本 5.6 我正在使用 Kuromoji 插件
用户词典
错误
text - 如何拆分日文文本?
使用 Java 分割日文文本的最佳方法是什么?例如,对于以下文本:
我需要以下输出:
可以使用黑字吗?