python-3.x - MeCab 解析不正确

Question

我下载了 MeCab 来解析一些日文文本。为了测试它，我尝试了一些在线示例。

例如，我逐字遵循这个人的提示：http ://www.robfahey.co.uk/blog/japanese-text-analysis-in-python/

代码如下：

import MeCab

test = "今日はいい天気ですね。遊びに行かない？新宿で祭りがある！"
mt = MeCab.Tagger("-Ochasen -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
parsed = mt.parseToNode(test)

components = []
while parsed:
    components.append(parsed.surface)
    parsed = parsed.next

print(components)

我期待的输出是：

['', '今日', 'は', 'いい', '天気', 'です', 'ね', '。', '遊び', 'に', '行か', 'ない', '？', '新宿', 'で', '祭り', 'が', 'ある', '！', '']

但是，我得到了这个：

['今日はいい天気ですね。遊びに行かない？新宿で祭りがある！', '今日はいい天気ですね。遊びに行かない？新宿で祭りがある！', 'はいい天気ですね。遊びに行かない？新宿で祭りがある！', 'いい天気ですね。遊びに行かない？新宿で祭りがある！', '天気ですね。遊びに行かない？新宿で祭りがある！', 'ですね。遊びに行かない？新宿で祭りがある！', 'ね。遊びに行かない？新宿で祭りがある！', '。遊びに行かない？新宿で祭りがある！', '遊びに行かない？新宿で祭りがある！', 'に行かない？新宿で祭りがある！', '行かない？新宿で祭りがある！', 'ない？新宿で祭りがある！', '？新宿で祭りがある！', '新宿で祭りがある！', 'で祭りがある！', '祭りがある！', 'がある！', 'ある！', '！', '']

对于熟悉 MeCab 或解析节点的人来说，我到底做错了什么？再次感谢你的帮助！

score 1 · Accepted Answer

你没有做错任何事，在 11 月发布的最新版本中有一个错误。mecab-python3

该错误应该很快就会修复，但现在请使用 0.7 版本。

python-3.x - MeCab 解析不正确

1 回答 1

Related

Reference