1

我想为日语使用 Elasticsearch Kuromoji 插件。但是,我很难理解分词器中文件的 user_dictionary 格式。它在弹性文档https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-kuromoji-tokenizer.html中解释为以下形式的 CSV:

Kuromoji 分词器默认使用 MeCab-IPADIC 字典。user_dictionary 可以附加到默认字典。字典应具有以下 CSV 格式:

<text>,<token 1> ... <token n>,<reading 1> ... <reading n>,<part-of-speech tag> 因此,文档中没有太多关于此的内容。

查看文档显示的示例条目时,它可能如下所示: 東京スカイツリー,東京 スカイツリー,トウキョウ スカイツリー,カスタム名詞 因此,将其分解,第一个元素是字典文本:

  1. 東京スカイツリー- 东京天空树
  2. 東京 スカイツリー- 是东京天空树 - 我假设这里的空间是表示令牌,但想知道为什么只有“东京”是一个单独的令牌,而天空树没有分成“天空”“树”?
  3. トウキョウ スカイツリー- 然后我们有一个阅读表格。再一次,“东京”“天空树”——再一次,为什么它会这样分裂。能否指定此栏文字的一种以上阅读形式(当然有的话)
  4. 最后是词性,这是我不明白的一点。カスタム名詞意思是“自定义名词”。我假设我可以定义词性,例如动词,名词等。但是规则是什么,它应该遵循词性名称的某种格式。我看到了将其指定为“名词”的示例 - 名詞。但在这个例子中是自定义名词。

任何人都有一些想法,特别是围绕词性字段的材料 - 例如可用值是什么。此外,这个领域对整体分词器功能有什么影响?

谢谢

4

0 回答 0