Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
首先,我在数据预处理方面很差。我正在寻找 libsvm 格式的 WebKB 数据。后来在互联网上搜索了很多之后,我发现了这个在词干和停用词删除后获得的数据。格式如下, 每一行代表一个向量,每个文件中的第一个单词包含类名,后跟一些单词列表,形成由空格分隔的特征。 如何将这样的文本文件转换为 lib-svm 格式?是否有任何 Weka 或 Matlab 工具来构建它?
libshorttext1.1 是一个 python 模块,具有为此目的的实用程序,具有许多额外的功能。试试看,或者我认为 scikit learn 包也有这个功能