1

我刚开始学习如何使用 mahout。但是,我不是 java 程序员,所以我试图避免使用 java 库。

我注意到有一个 shell 工具 regexconverter。但是,文档很少且没有指导意义。指定正则表达式选项究竟是做什么的,转换器类和格式化程序类是做什么的?mahout wiki非常不透明。我假设正则表达式选项指定什么算作“单位”左右。

他们列出的示例是使用 regexconverter 将 http 日志请求转换为我相信的序列文件。我有一个 csv 文件,其中包含稍微改变的 http 日志请求,我希望将其转换为序列文件。我是否只需更改正则表达式以获取每一行?我正在尝试运行一个贝叶斯分类器,类似于20 个新闻组示例,它似乎完全在 shell 中完成,无需 Java 编码。

顺便说一句,arff.vector命令似乎允许我将 arff 文件直接转换为向量。我对 arff 不熟悉,认为它似乎是我可以轻松将 csv 日志文件转换成的东西。我应该改用这种方法,并完全跳过序列文件步骤吗?

谢谢您的帮助。

4

0 回答 0