c# - 如何让 NMecab 输出罗马字？

Question

我正在使用Mecab 的 .NET 端口（称为 NMecab）尝试将日语平假名、片假名和日本汉字解析为罗马字。

这是我的代码：

using NMeCab;    
MeCabTagger _tagger;

public string Parse(string input)
{
    _tagger = MeCabTagger.Create();
    _tagger.OutPutFormatType = "lattice";
    _tagger.LatticeLevel = MeCabLatticeLevel.Two;


    var output = _tagger.Parse(input);

    return output;
}

当我打电话时Parse(input)使用以下日语文本：“ども”

我得到输出：“ども助词,接続助词, , , , ,ども,ドモ,ドモ EOS”

我正在寻找“ども”的罗马字，应该是“domo”。

我已尝试按照此 SO answer 中的讨论直接使用 Mecab ，但得到相同的输出。

score 2 · Accepted Answer

据我所知，MeCab 使用的字典（IPA、Jumandic 或 Unidic）都不包括单词的罗马字转录。实际上没有必要这样做：

存在不同的转录方案（例如 Hepburn、kunrei、99 siki）；
已经有关于词汇单位发音的信息（例如ドモ）。

您必须编写自己的转录程序......或寻找现有的片假名罗马字转录模块（与您的转录方案兼容）......

c# - 如何让 NMecab 输出罗马字？

1 回答 1

Related

Reference