2

给定一个可以包含日文和英文文本的字符串,我想:

  1. 将日语部分从平假名转换为片假名,将半角转换为全角。
  2. 按单词拆分字符串(日语文本不使用空格分隔单词)

我目前正在使用优秀的 iOS / OS X 字符串库(可满足数百种复杂性和边缘情况)。

CFStringTransformkCFStringTransformHiraganaKatakana常数。

enumerateSubstringsInRange:options:usingBlock:NSStringEnumerationByWords常数。

搜索正在从客户端转移到服务器,因此我们需要这些方法的 PHP 或 Python 版本。

4

1 回答 1

0

也许nltkjptiny segmenter都与nltk兼容,对于日本语料库,您可以访问Masato Hagiwara网站。

于 2013-04-09T12:59:39.050 回答