0

我想使用 weka 对 10 个网页进行分类。如何将网页转换为 Weka 的 ARFF 文件格式?我是否需要将所有 10 页转换为一个 ARFF 文件,或者我是否需要为每个网页转换 ARFF 文件,即 10 个 ARFF 文件。

4

1 回答 1

2

假设您想保留 HTML 格式,这相对容易。只需将您的 HTML 文件放在单独的文件夹/目录中(每个目录一个类),然后应用TextDirectoryLoader转换器,如使用 WEKA 的文本分类教程中所述。

假设你有两个类,你应该做的(并通过这个过程得到)是一个 ARFF 文件,每个文件有一个实例,每个文件的文本到一个文本属性的单个字段(属性值)中,以及与类(目录名)。然后您可以使用 StringToWordVector 过滤器将文档转换为术语向量并执行分类。

于 2013-10-25T12:35:31.133 回答