我想使用 weka 对波斯文本进行文本分类。但我有一个问题。
波斯语中的 Tokenizer、stoplist 和 stemmer 与英语中的这些不同。所以我应该在 weka 的界面中使用我的词干分析器、标记器和停止列表,有一个解决方案可以使用我自己的停止列表,但是没有办法更改词干分析器和标记器。
我想知道是否可以在不修改weka源代码的情况下更改它们?
因为我是java新手,不知道应该如何修改weka源代码。
我想使用 weka 对波斯文本进行文本分类。但我有一个问题。
波斯语中的 Tokenizer、stoplist 和 stemmer 与英语中的这些不同。所以我应该在 weka 的界面中使用我的词干分析器、标记器和停止列表,有一个解决方案可以使用我自己的停止列表,但是没有办法更改词干分析器和标记器。
我想知道是否可以在不修改weka源代码的情况下更改它们?
因为我是java新手,不知道应该如何修改weka源代码。
我找到了我的答案!不修改weka's
源代码是不可能的我被迫修改源代码。我weka's
做这件事太麻烦了。因为我是java新手!所以我提出了一个简短的步骤来修改weka's
代码以帮助他人:首先,您应该设置此链接中描述的 java 环境变量
:http: //www.ntu.edu.sg/home/ehchua/programming/howto/Environment_Variables.html
,然后安装此链接中描述的 ant:
http:// ant.apache.org/bindownload.cgi
最后看这个视频,看看你应该如何修改 weka 的代码:
http ://www.youtube.com/watch?v=buCpG7uV_v4