2

我想使用 weka 对波斯文本进行文本分类。但我有一个问题。

波斯语中的 Tokenizer、stoplist 和 stemmer 与英语中的这些不同。所以我应该在 weka 的界面中使用我的词干分析器、标记器和停止列表,有一个解决方案可以使用我自己的停止列表,但是没有办法更改词干分析器和标记器。

我想知道是否可以在不修改weka源代码的情况下更改它们?

因为我是java新手,不知道应该如何修改weka源代码。

4

1 回答 1

0

我找到了我的答案!不修改weka's源代码是不可能的我被迫修改源代码。我weka's做这件事太麻烦了。因为我是java新手!所以我提出了一个简短的步骤来修改weka's代码以帮助他人:首先,您应该设置此链接中描述的 java 环境变量 :http: //www.ntu.edu.sg/home/ehchua/programming/howto/Environment_Variables.html ,然后安装此链接中描述的 ant: http:// ant.apache.org/bindownload.cgi 最后看这个视频,看看你应该如何修改 weka 的代码: http ://www.youtube.com/watch?v=buCpG7uV_v4

于 2014-01-11T20:48:54.153 回答