我对 TensorFlow 和机器学习比较陌生。我有一个数据集运行成百万行,每行 > 2000 列。我正在考虑在 AWS AMI(C5 实例)上使用 Tensorflow。我不确定在哪里/如何存储这些庞大的数据。
1-我应该将其作为 csv 存储在 S3 存储桶中,还是应该将其加载到一些大数据系统中,然后使用 Apache spark 将其流式传输出来?你能在这里指导我吗?
2-另外,如果我必须清理这些数据,正确的方法是什么?也许使用 AWS Sagemaker 并使用 python/pandas(通过笔记本)来清理数据?这是正确的方法吗?