nlp - 可以平衡 unidic 与 unidic-neologd 吗？

Question

与句子“场所は多少わかりづらいんですけど、感じのいいところでした。”（即“有点难找，但它是个好地方。”）使用mecab与-d mecab-unidic-neologd第一行输出是：

場所  バショ バショ 場所  名詞-固有名詞-人名-姓

即它说“场所”是一个人的姓氏。使用普通的 mecab-unidic 它更准确地说“场所”只是一个简单的名词。

場所  バショ バショ 場所  名詞-普通名詞-一般

我的第一个问题是 unidic-neologd 是否替换了 unidic 中的所有条目，还是只是简单地附加了 300 万个专有名词？

然后，其次，假设它是一个合并，是否有可能重新加权条目，以更强烈地偏爱普通的 unidic 条目？即我很想得到中居正広のミになる図书馆和 SMAP 都被识别为单个专有名词，但我也需要它来看到场所总是意味着“地方”（除非它后面跟着当然是名字后缀，例如さん或様）。

参考文献：unidic-neologd

score 2 · Accepted Answer

Neologd 与 unidic（或 ipadic）合并，这就是它在名称中保留“unidic”的原因。如果一个条目具有多个词性，例如场所，则通过使用词性转换最小化整个句子的成本来选择要使用的条目，对于字典中的单词，每个令牌的成本。

如果您查看包含 neologd 字典条目的 CSV 文件，您将看到两个用于场所的条目：

場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*                              
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*

在中lex.csv，默认的 unidic 字典：

場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*

第四列是成本。成本较低的项目更有可能被选中，因此在这种情况下，您可以将场所的成本提高为专有名词，但老实说，我只是将其删除。您可以在此处阅读更多关于摆弄成本的信息（日语）。

如果您想对所有默认的 unidic 条目进行更强烈的加权，您可以修改 neolog CSV 文件以增加所有权重。这是创建这样的文件的一种方法：

awk -F, 'BEGIN{OFS=FS}{$4 = $4 * 100; print $0}' neolog.csv > neolog.fix.csv

在构建之前，您必须删除原始 csv 文件（参见下面的注 2）。

在这种特殊情况下，我认为您应该将此作为错误报告给 Neologd 项目。

注1：如上所述，由于选择哪个条目取决于整个句子，因此即使使用默认配置也可以获得非专有名词标签。例句：

お店の場所知っている？

注意 2：neologd 字典与默认 unidic 字典结合的方式是基于 Mecab 字典构建工作方式的一个微妙方面。具体来说，创建系统字典时会使用字典构建目录中的所有CSV 文件。没有指定顺序，因此不清楚发生碰撞时会发生什么。

此处的 Mecab 文档（日语）中提到了此功能。

nlp - 可以平衡 unidic 与 unidic-neologd 吗？

1 回答 1

Related

Reference