Neologd 与 unidic(或 ipadic)合并,这就是它在名称中保留“unidic”的原因。如果一个条目具有多个词性,例如场所,则通过使用词性转换最小化整个句子的成本来选择要使用的条目,对于字典中的单词,每个令牌的成本。
如果您查看包含 neologd 字典条目的 CSV 文件,您将看到两个用于场所的条目:
場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
在 中lex.csv
,默认的 unidic 字典:
場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*
第四列是成本。成本较低的项目更有可能被选中,因此在这种情况下,您可以将场所的成本提高为专有名词,但老实说,我只是将其删除。您可以在此处阅读更多关于摆弄成本的信息(日语)。
如果您想对所有默认的 unidic 条目进行更强烈的加权,您可以修改 neolog CSV 文件以增加所有权重。这是创建这样的文件的一种方法:
awk -F, 'BEGIN{OFS=FS}{$4 = $4 * 100; print $0}' neolog.csv > neolog.fix.csv
在构建之前,您必须删除原始 csv 文件(参见下面的注 2)。
在这种特殊情况下,我认为您应该将此作为错误报告给 Neologd 项目。
注1:如上所述,由于选择哪个条目取决于整个句子,因此即使使用默认配置也可以获得非专有名词标签。例句:
お店の場所知っている?
注意 2:neologd 字典与默认 unidic 字典结合的方式是基于 Mecab 字典构建工作方式的一个微妙方面。具体来说,创建系统字典时会使用字典构建目录中的所有CSV 文件。没有指定顺序,因此不清楚发生碰撞时会发生什么。
此处的 Mecab 文档(日语)中提到了此功能。