- 到处都坚持使用 Unicode 和 utf-8。
- 远离原生的日语编码:euc-jp、shiftjis、iso-2022-jp,但请注意,如果继续,您可能会在某个时候遇到它们。
- 熟悉用于进行 POS 分析、分词等复杂工作的分词器。大多数在日语上进行 NLP(自然语言处理)工作的人使用的标准工具是按受欢迎程度/功能排序的。
MeCab(最初在SourceForge 上)很棒:它允许您获取文本,例如,
「日本语は、とても难しいです。」</pre>
并获得各种重要信息
kettle:~$ echo 日本語は、難しいです | mecab
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
難しい 形容詞,自立,*,*,形容詞・イ段,基本形,難しい,ムズカシイ,ムズカシイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
这基本上是对词性,阅读,发音等的详细介绍。它还有助于分析动词时态,
kettle:~$ echo メキシコ料理が食べたい | mecab
メキシコ 名詞,固有名詞,地域,国,*,*,メキシコ,メキシコ,メキシコ
料理 名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
EOS
但是,文档都是日文的,设置和弄清楚如何按照您想要的方式格式化输出有点复杂。有可用于 ubuntu/debian 的软件包,以及多种语言的绑定,包括 perl、python、ruby...
适用于 ubuntu 的 Apt-repos:
deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
要安装的软件包:
$ apt-get install mecab-ipadic-utf8 mecab python-mecab
应该做我认为的伎俩。
mecab 的其他替代品是ChaSen,它是几年前由 MeCab 的作者(他现在偶然在谷歌工作)和Kakasi的作者,它的功能要小得多。
我肯定会尽量避免滚动你自己的共轭程序。这样做的问题在于,它需要大量的工作,而其他人已经完成了这些工作,并且在一天结束时用规则覆盖所有边缘情况是不可能的。
MeCab 是统计驱动的,并根据大量数据进行训练。它采用了一种称为条件随机场(CRF) 的复杂机器学习技术,结果非常好。
和日本人一起玩。我不确定您的日语有多好,但是如果您需要有关 mecab 文档的帮助或其他任何问题,也可以随时询问。汉字一开始可能会很吓人。