我是 Rapidminer 的新手。我有很多 XML 文件,我想根据关键字手动对这些文件进行分类。然后我想在这些数据上训练像 Naive Bayer 和 SVM 这样的分类器,并使用交叉验证器计算它们的性能。
你能告诉我不同的步骤吗?
我是否需要使用标记化、TFIDF 等文本处理活动?
我是 Rapidminer 的新手。我有很多 XML 文件,我想根据关键字手动对这些文件进行分类。然后我想在这些数据上训练像 Naive Bayer 和 SVM 这样的分类器,并使用交叉验证器计算它们的性能。
你能告诉我不同的步骤吗?
我是否需要使用标记化、TFIDF 等文本处理活动?
这些步骤会像这样
Extract Information
使用类似或包含适当 XPath 查询的运算符对其进行标记,Cut Document
以输出与文档中提取的信息相对应的行。我已经包含了一个流程链接,您可以将其用作此流程的基础。它读取包含 XML 文件的 RapidMiner 存储库,因此是使用文本处理技术处理 XML 文档的一个很好的示例。显然,您必须对您的案例进行一些大的修改。
希望能帮助到你。
恐怕,现在回复已经太晚了。但它可以帮助其他人。有一个名为“文本挖掘扩展”的扩展,我使用的是 6.1.0 版本。所以你可以去 RapidMiner > 帮助 > 更新并安装这个扩展。它将从一个目录中获取所有文件。它具有您可以使用的各种文本挖掘算法
另外,我发现这个教程视频对你也有帮助 https://www.youtube.com/watch?v=oXrUz5CWM4E