text-mining - 向 fugashi 词典添加新词

Question

我正在使用 fugashi 从句子中提取单词。如何将不在 fugacy 字典中的新术语添加到字典中？

例如，YouTube 分为“You”和“Tube”。

import fugashi
tagger = fugashi.Tagger()
nodes = tagger.parseToNodeList("ユーチューブ")
goodpos = ['名詞']
nodes = [nn.surface for nn in nodes if nn.feature.pos1 in goodpos]

=> ['ユー', 'チューブ']

score 2 · Accepted Answer

我还没有为此制定适当的指南，但基本上你应该遵循MeCab 文档，但你可以使用fugashi-build-dict而不是mecab-dict-index.

为了给出简要说明，首先您需要制作一个与系统字典使用相同格式的 CSV 文件。这是基于unidic-lite.

令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
㋿,5969,5969,2588,補助記号,一般,*,*,*,*,,㋿,㋿,,㋿,,記号,*,*,*,*,*,*,*,,,,,*,*,*,*,999999
㋿,4786,4786,3992,名詞,固有名詞,一般,*,*,*,レイワ,令和,㋿,レーワ,㋿,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
夢夢,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*

您可以通过从 UniDic 源和编辑字段中复制条目来完成此操作。然后你运行这个命令：

fugashi-build-dict -d dicdir/ -u mydic.dic mydic.csv

dicdir是您的系统字典的位置，mydic.csv是您制作的 csv 文件。这将创建mydic.dic文件，然后您可以通过指定-u mydic.dic.

text-mining - 向 fugashi 词典添加新词

1 回答 1

Related

Reference