matlab - 在 matlab 中读取 csv 文件的随机子集

Question

我有一个 csv 格式的大型（150000）数据集。数据集在某些领域存在一些噪音和错误。我想读取这个文件并使用 svm(with libsvm) 对其进行分类。我需要读取干净且可用的数据子集。选择 10000 个干净的随机记录，并且没有一个字段是嘈杂的。有噪声的文件的值为 0 或 NA。我怎样才能用matlab做到这一点？

score 0 · Accepted Answer

如果您想要一个合适的 MATLAB 解决方案，您需要制作一个自定义文件阅读器。不过，这可能不值得付出努力。

我能想到的最快解决方案是grep在使用csvread. 如果你有grep，你可以去掉带有'NA'的行：

cat file | grep --invert-match NA > file.filtered

您可以阅读 file.filtered 而不会出现 MATLABcsvread函数的问题。您可以轻松地从 MATLAB 中删除带有 0 的行。

matlab - 在 matlab 中读取 csv 文件的随机子集

1 回答 1

Related

Reference