0

首先,我在数据预处理方面很差。我正在寻找 libsvm 格式的 WebKB 数据。后来在互联网上搜索了很多之后,我发现了这个在词干和停用词删除后获得的数据。格式如下,
每一行代表一个向量,每个文件中的第一个单词包含类名,后跟一些单词列表,形成由空格分隔的特征。
如何将这样的文本文件转换为 lib-svm 格式?是否有任何 Weka 或 Matlab 工具来构建它?

4

1 回答 1

0

libshorttext1.1 是一个 python 模块,具有为此目的的实用程序,具有许多额外的功能。试试看,或者我认为 scikit learn 包也有这个功能

于 2013-11-08T12:46:47.630 回答