0

我有一个 csv 格式的大型(150000)数据集。数据集在某些领域存在一些噪音和错误。我想读取这个文件并使用 svm(with libsvm) 对其进行分类。我需要读取干净且可用的数据子集。选择 10000 个干净的随机记录,并且没有一个字段是嘈杂的。有噪声的文件的值为 0 或 NA。我怎样才能用matlab做到这一点?

4

1 回答 1

0

如果您想要一个合适的 MATLAB 解决方案,您需要制作一个自定义文件阅读器。不过,这可能不值得付出努力。

我能想到的最快解决方案是grep在使用csvread. 如果你有grep,你可以去掉带有'NA'的行:

cat file | grep --invert-match NA > file.filtered

您可以阅读 file.filtered 而不会出现 MATLABcsvread函数的问题。您可以轻松地从 MATLAB 中删除带有 0 的行。

于 2013-05-06T08:24:35.727 回答