elasticsearch - 努力理解 Elasticsearch Kuromoji 标记器中的用户字典格式

Question

我想为日语使用 Elasticsearch Kuromoji 插件。但是，我很难理解分词器中文件的 user_dictionary 格式。它在弹性文档https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-kuromoji-tokenizer.html中解释为以下形式的 CSV：

Kuromoji 分词器默认使用 MeCab-IPADIC 字典。user_dictionary 可以附加到默认字典。字典应具有以下 CSV 格式：

<text>,<token 1> ... <token n>,<reading 1> ... <reading n>,<part-of-speech tag> 因此，文档中没有太多关于此的内容。

查看文档显示的示例条目时，它可能如下所示： 東京スカイツリー,東京スカイツリー,トウキョウスカイツリー,カスタム名詞 因此，将其分解，第一个元素是字典文本：

東京スカイツリー- 东京天空树
東京スカイツリー- 是东京天空树 - 我假设这里的空间是表示令牌，但想知道为什么只有“东京”是一个单独的令牌，而天空树没有分成“天空”“树”？
トウキョウスカイツリー- 然后我们有一个阅读表格。再一次，“东京”“天空树”——再一次，为什么它会这样分裂。能否指定此栏文字的一种以上阅读形式（当然有的话）
最后是词性，这是我不明白的一点。カスタム名詞意思是“自定义名词”。我假设我可以定义词性，例如动词，名词等。但是规则是什么，它应该遵循词性名称的某种格式。我看到了将其指定为“名词”的示例 - 名詞。但在这个例子中是自定义名词。

任何人都有一些想法，特别是围绕词性字段的材料 - 例如可用值是什么。此外，这个领域对整体分词器功能有什么影响？

谢谢

elasticsearch - 努力理解 Elasticsearch Kuromoji 标记器中的用户字典格式

0 回答 0

Related

Reference