问题标签 [tf.dataset]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
175 浏览

tensorflow - 尽管使用了 tf 数据管道,但训练速度很慢

我正在训练包含 21000 张图像的图像分类模型。我在 tensorflow 的 tf.data API 的帮助下创建了数据管道。我的问题是尽管使用了 API,但训练速度太慢了。我还启用了 tensorflow gpu 版本。请帮帮我。我首先认为这是由于 keras imagedatagenerator 减慢了我的训练时间,但现在当我更改它时,tf.data 管道它仍然没有使用我的 gpu。下面是我的整个代码

0 投票
1 回答
81 浏览

tensorflow - 输入形状轴 0 必须等于 4,在 tensorflow 数据集管道中尝试裁剪图像批次时得到形状 [5]

当我尝试在tf.data.Dataset管道中裁剪一批图像时出现以下错误:

InvalidArgumentError:输入形状轴 0 必须等于 4,得到形状 [5] [[{{node crop_to_bounding_box/unstack}}]] [Op:IteratorGetNext]

但是当我尝试运行以下 for 循环时,我得到了提到的错误:

请注意,管道在没有函数tf.image.crop_to_bounding_box内部的情况下crop工作(直接使用cropped_image = img_batch)。

您知道如何在 tf.data.Dataset 管道中正确裁剪一批图像吗?

0 投票
0 回答
42 浏览

python - 将 TensorFlow 列转换为类别索引

我正在尝试将张量流张量列映射到唯一值数组中:

我用以下方式读取数据:

文本文件包含用“:”分隔的特征向量和相应的值。我正在尝试将相应的值映射到 dp1_unique_values 的索引中。通常使用 numpy 我会这样做

a = np.argwhere(dp1_unique_values,y)

其中 y 是从文本文件中读取的值数组。我试图编写一个解析器函数来将文本转换为浮点数:

但是,此解析器返回值而不是 dp1_unique_values 的索引。

如何在解析器函数级别将 y 值映射到 dp1_unique_values?

0 投票
0 回答
43 浏览

tensorflow - How to split dataset into test train validation created with textlinedataset?

I have a datafile that I read with:

I would like to split dataset into test train validation.

The data file contains feature vectors and corresponding vectors at each line. I process the text with parse_func:

Finally I have another function that I call to map labels (they are float values) to integers.

I am trying to grab the concept so far. "dataset" is an iterator object. My map function returns a tupple : x is the feature vector and z is the label. I know exactly how many feature vector in the data file ~ 900 000 lines. I can read all data into train test and validation sets. Maybe 600 000 , 200 000 and 100 000 for each. However this might effect the performance. And also in the feature I am planning to add more data to the set. What would be the correct strategy to build and feed the model here? How to split data while streaming to the model?

0 投票
0 回答
13 浏览

tensorflow2.0 - 如何使用 tf.data 同时预处理整个批次?(尤其是在多 GPU 分布式训练中)

我有一个加载图像的 tf.data 管道,目前我在 tf.data.Dataset 上使用单个 GPU 时通过获取单个批次来调整整个批次的大小。但是,我希望在分布式培训中做到这一点,我该怎么做?tf.data.Dataset 映射函数采用单个图像进行预处理,但是我希望做的是在批处理级别执行此操作。

0 投票
0 回答
25 浏览

python - 如何将编码序列(可变长度)编码为 tf.from_generator 的输入?

我正在尝试创建一个循环神经网络。输入是用户历史的序列,其中每个历史由一个序列(具有不同长度)的编码(每个具有形状(300))组成。这是代码:

当我执行它时,tf.convert_to_tensor会引发错误:

我认为这与编码序列的可变长度有关,但我不明白如何解决它。

0 投票
0 回答
69 浏览

python - 如何添加嵌套字典作为 tf.data.Dataset.from_tensor_slices 的输入

我正在尝试使用该tf.data.Dataset.from_tensor_slices命令加载数据集。

我的输入是以下格式的嵌套字典列表:

更新: 反序列化输入将不起作用,因为命令:(
dataset = tf.data.Dataset.from_tensor_slices(pd.DataFrame.from_dict(pd.json_normalize(train_data)).to_dict(orient="list")))给出错误

“所有输入的形状必须匹配:”

有谁知道如何使用 tf.dataset 从具有不同结构的嵌套字典列表中加载数据?

先感谢您!