machine-learning - 如何使用 Rapidminer 处理 XML 文件进行分类

Question

我是 Rapidminer 的新手。我有很多 XML 文件，我想根据关键字手动对这些文件进行分类。然后我想在这些数据上训练像 Naive Bayer 和 SVM 这样的分类器，并使用交叉验证器计算它们的性能。

你能告诉我不同的步骤吗？

我是否需要使用标记化、TFIDF 等文本处理活动？

score 0 · Accepted Answer

这些步骤会像这样

循环文件 - 即遍历文件夹中的所有文件并依次读取每个文件。
对于每个文件
- 将其作为文档读入。
- Extract Information使用类似或包含适当 XPath 查询的运算符对其进行标记，Cut Document以输出与文档中提取的信息相对应的行。
创建一个包含所有行的文档向量。这是将使用 TF-IDF 或其他方法的地方。选择取决于手头的问题，因为 TF-IDF 是一种常见的选择，在这种选择中，对经常出现在相对少量文档中的标记给予更大的权重很重要。
构建模型并使用交叉验证来估计未见数据的性能。

我已经包含了一个流程链接，您可以将其用作此流程的基础。它读取包含 XML 文件的 RapidMiner 存储库，因此是使用文本处理技术处理 XML 文档的一个很好的示例。显然，您必须对您的案例进行一些大的修改。

希望能帮助到你。

score 0 · Accepted Answer

恐怕，现在回复已经太晚了。但它可以帮助其他人。有一个名为“文本挖掘扩展”的扩展，我使用的是 6.1.0 版本。所以你可以去 RapidMiner > 帮助 > 更新并安装这个扩展。它将从一个目录中获取所有文件。它具有您可以使用的各种文本挖掘算法

另外，我发现这个教程视频对你也有帮助 https://www.youtube.com/watch?v=oXrUz5CWM4E

2 回答 2