我正在研究一个多类分类问题,包括对简历进行分类。
我使用 sklearn 和它的 TfIdfVectorizer 来获得一个大的 scipy 稀疏矩阵,我在酸洗后将其输入到 Tensorflow 模型中。在我的本地机器上,我加载它,将小批量转换为密集的 numpy 数组并填充一个提要字典。一切都很好。
现在我想在 ML 云上做同样的事情。我的 pickle 存储在,但是当我运行我的训练器时,在这个 URI ( )gs://my-bucket/path/to/pickle
中找不到 pickle 文件。IOError: [Errno 2] No such file or directory
我pickle.load(open('gs://my-bucket/path/to/pickle), 'rb')
用来提取我的数据。我怀疑这不是在 GCS 上打开文件的好方法,但我对 Google Cloud 完全陌生,找不到正确的方法。
另外,我读到必须对输入数据使用 TFRecords 或 CSV 格式,但我不明白为什么我的方法不起作用。CSV 被排除在外,因为矩阵的密集表示太大而无法放入内存。TFRecords 可以像这样有效地编码稀疏数据吗?是否可以从泡菜文件中读取数据?