1

我正在使用Mecab 的 .NET 端口(称为 NMecab)尝试将日语平假名、片假名和日本汉字解析为罗马字。

这是我的代码:

using NMeCab;    
MeCabTagger _tagger;

public string Parse(string input)
{
    _tagger = MeCabTagger.Create();
    _tagger.OutPutFormatType = "lattice";
    _tagger.LatticeLevel = MeCabLatticeLevel.Two;


    var output = _tagger.Parse(input);

    return output;
}

当我打电话时Parse(input)使用以下日语文本:“ども”

我得到输出:“ども助词,接続助词, , , , ,ども,ドモ,ドモ EOS”

我正在寻找“ども”的罗马字,应该是“domo”。

我已尝试按照此 SO answer 中的讨论直接使用 Mecab ,但得到相同的输出。

4

1 回答 1

2

据我所知,MeCab 使用的字典(IPA、Jumandic 或 Unidic)都不包括单词的罗马字转录。实际上没有必要这样做:

  1. 存在不同的转录方案(例如 Hepburn、kunrei、99 siki);

  2. 已经有关于词汇单位发音的信息(例如ドモ)。

您必须编写自己的转录程序......或寻找现有的片假名罗马字转录模块(与您的转录方案兼容)......

于 2014-05-19T10:13:19.430 回答