1

我是 Rapidminer 的新手。我有很多 XML 文件,我想根据关键字手动对这些文件进行分类。然后我想在这些数据上训练像 Naive Bayer 和 SVM 这样的分类器,并使用交叉验证器计算它们的性能。

你能告诉我不同​​的步骤吗?

我是否需要使用标记化、TFIDF 等文本处理活动?

4

2 回答 2

0

这些步骤会像这样

  1. 循环文件 - 即遍历文件夹中的所有文件并依次读取每个文件。
  2. 对于每个文件
    • 将其作为文档读入。
    • Extract Information使用类似或包含适当 XPath 查询的运算符对其进行标记,Cut Document以输出与文档中提取的信息相对应的行。
  3. 创建一个包含所有行的文档向量。这是将使用 TF-IDF 或其他方法的地方。选择取决于手头的问题,因为 TF-IDF 是一种常见的选择,在这种选择中,对经常出现在相对少量文档中的标记给予更大的权重很重要。
  4. 构建模型并使用交叉验证来估计未见数据的性能。

我已经包含了一个流程链接,您可以将其用作此流程的基础。它读取包含 XML 文件的 RapidMiner 存储库,因此是使用文本处理技术处理 XML 文档的一个很好的示例。显然,您必须对您的案例进行一些大的修改。

希望能帮助到你。

于 2013-07-21T08:57:43.440 回答
0

恐怕,现在回复已经太晚了。但它可以帮助其他人。有一个名为“文本挖掘扩展”的扩展,我使用的是 6.1.0 版本。所以你可以去 RapidMiner > 帮助 > 更新并安装这个扩展。它将从一个目录中获取所有文件。它具有您可以使用的各种文本挖掘算法

另外,我发现这个教程视频对你也有帮助 https://www.youtube.com/watch?v=oXrUz5CWM4E

于 2015-04-01T15:41:57.440 回答