3

我正在使用 fugashi 从句子中提取单词。如何将不在 fugacy 字典中的新术语添加到字典中?

例如,YouTube 分为“You”和“Tube”。

import fugashi
tagger = fugashi.Tagger()
nodes = tagger.parseToNodeList("ユーチューブ")
goodpos = ['名詞']
nodes = [nn.surface for nn in nodes if nn.feature.pos1 in goodpos]

=> ['ユー', 'チューブ']

4

1 回答 1

2

我还没有为此制定适当的指南,但基本上你应该遵循MeCab 文档,但你可以使用fugashi-build-dict而不是mecab-dict-index.

为了给出简要说明,首先您需要制作一个与系统字典使用相同格式的 CSV 文件。这是基于unidic-lite.

令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
㋿,5969,5969,2588,補助記号,一般,*,*,*,*,,㋿,㋿,,㋿,,記号,*,*,*,*,*,*,*,,,,,*,*,*,*,999999
㋿,4786,4786,3992,名詞,固有名詞,一般,*,*,*,レイワ,令和,㋿,レーワ,㋿,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
夢夢,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*

您可以通过从 UniDic 源和编辑字段中复制条目来完成此操作。然后你运行这个命令:

fugashi-build-dict -d dicdir/ -u mydic.dic mydic.csv

dicdir是您的系统字典的位置,mydic.csv是您制作的 csv 文件。这将创建mydic.dic文件,然后您可以通过指定-u mydic.dic.

于 2021-05-17T04:59:43.043 回答