我想为日语使用 Elasticsearch Kuromoji 插件。但是,我很难理解分词器中文件的 user_dictionary 格式。它在弹性文档https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-kuromoji-tokenizer.html中解释为以下形式的 CSV:
Kuromoji 分词器默认使用 MeCab-IPADIC 字典。user_dictionary 可以附加到默认字典。字典应具有以下 CSV 格式:
<text>,<token 1> ... <token n>,<reading 1> ... <reading n>,<part-of-speech tag>
因此,文档中没有太多关于此的内容。
查看文档显示的示例条目时,它可能如下所示:
東京スカイツリー,東京 スカイツリー,トウキョウ スカイツリー,カスタム名詞
因此,将其分解,第一个元素是字典文本:
東京スカイツリー
- 东京天空树東京 スカイツリー
- 是东京天空树 - 我假设这里的空间是表示令牌,但想知道为什么只有“东京”是一个单独的令牌,而天空树没有分成“天空”“树”?トウキョウ スカイツリー
- 然后我们有一个阅读表格。再一次,“东京”“天空树”——再一次,为什么它会这样分裂。能否指定此栏文字的一种以上阅读形式(当然有的话)- 最后是词性,这是我不明白的一点。
カスタム名詞
意思是“自定义名词”。我假设我可以定义词性,例如动词,名词等。但是规则是什么,它应该遵循词性名称的某种格式。我看到了将其指定为“名词”的示例 -名詞
。但在这个例子中是自定义名词。
任何人都有一些想法,特别是围绕词性字段的材料 - 例如可用值是什么。此外,这个领域对整体分词器功能有什么影响?
谢谢