2

我下载了 MeCab 来解析一些日文文本。为了测试它,我尝试了一些在线示例。

例如,我逐字遵循这个人的提示:http ://www.robfahey.co.uk/blog/japanese-text-analysis-in-python/

代码如下:

import MeCab

test = "今日はいい天気ですね。遊びに行かない?新宿で祭りがある!"
mt = MeCab.Tagger("-Ochasen -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
parsed = mt.parseToNode(test)

components = []
while parsed:
    components.append(parsed.surface)
    parsed = parsed.next

print(components)

我期待的输出是:

['', '今日', 'は', 'いい', '天気', 'です', 'ね', '。', '遊び', 'に', '行か', 'ない', '?', '新宿', 'で', '祭り', 'が', 'ある', '!', '']

但是,我得到了这个:

['今日はいい天気ですね。遊びに行かない?新宿で祭りがある!', '今日はいい天気ですね。遊びに行かない?新宿で祭りがある!', 'はいい天気ですね。遊びに行かない?新宿で祭りがある!', 'いい天気ですね。遊びに行かない?新宿で祭りがある!', '天気ですね。遊びに行かない?新宿で祭りがある!', 'ですね。遊びに行かない?新宿で祭りがある!', 'ね。遊びに行かない?新宿で祭りがある!', '。遊びに行かない?新宿で祭りがある!', '遊びに行かない?新宿で祭りがある!', 'に行かない?新宿で祭りがある!', '行かない?新宿で祭りがある!', 'ない?新宿で祭りがある!', '?新宿で祭りがある!', '新宿で祭りがある!', 'で祭りがある!', '祭りがある!', 'がある!', 'ある!', '!', '']

对于熟悉 MeCab 或解析节点的人来说,我到底做错了什么?再次感谢你的帮助!

4

1 回答 1

1

你没有做错任何事,在 11 月发布的最新版本中有一个错误。mecab-python3

该错误应该很快就会修复,但现在请使用 0.7 版本。

于 2018-12-17T02:44:51.703 回答