问题标签 [tf.dataset]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 尽管使用了 tf 数据管道,但训练速度很慢
我正在训练包含 21000 张图像的图像分类模型。我在 tensorflow 的 tf.data API 的帮助下创建了数据管道。我的问题是尽管使用了 API,但训练速度太慢了。我还启用了 tensorflow gpu 版本。请帮帮我。我首先认为这是由于 keras imagedatagenerator 减慢了我的训练时间,但现在当我更改它时,tf.data 管道它仍然没有使用我的 gpu。下面是我的整个代码
tensorflow - 输入形状轴 0 必须等于 4,在 tensorflow 数据集管道中尝试裁剪图像批次时得到形状 [5]
当我尝试在tf.data.Dataset
管道中裁剪一批图像时出现以下错误:
InvalidArgumentError:输入形状轴 0 必须等于 4,得到形状 [5] [[{{node crop_to_bounding_box/unstack}}]] [Op:IteratorGetNext]
但是当我尝试运行以下 for 循环时,我得到了提到的错误:
请注意,管道在没有函数tf.image.crop_to_bounding_box
内部的情况下crop
工作(直接使用cropped_image = img_batch
)。
您知道如何在 tf.data.Dataset 管道中正确裁剪一批图像吗?
python - 将 TensorFlow 列转换为类别索引
我正在尝试将张量流张量列映射到唯一值数组中:
我用以下方式读取数据:
文本文件包含用“:”分隔的特征向量和相应的值。我正在尝试将相应的值映射到 dp1_unique_values 的索引中。通常使用 numpy 我会这样做
a = np.argwhere(dp1_unique_values,y)
其中 y 是从文本文件中读取的值数组。我试图编写一个解析器函数来将文本转换为浮点数:
但是,此解析器返回值而不是 dp1_unique_values 的索引。
如何在解析器函数级别将 y 值映射到 dp1_unique_values?
tensorflow - How to split dataset into test train validation created with textlinedataset?
I have a datafile that I read with:
I would like to split dataset into test train validation.
The data file contains feature vectors and corresponding vectors at each line. I process the text with parse_func:
Finally I have another function that I call to map labels (they are float values) to integers.
I am trying to grab the concept so far. "dataset" is an iterator object. My map function returns a tupple : x is the feature vector and z is the label. I know exactly how many feature vector in the data file ~ 900 000 lines. I can read all data into train test and validation sets. Maybe 600 000 , 200 000 and 100 000 for each. However this might effect the performance. And also in the feature I am planning to add more data to the set. What would be the correct strategy to build and feed the model here? How to split data while streaming to the model?
tensorflow2.0 - 如何使用 tf.data 同时预处理整个批次?(尤其是在多 GPU 分布式训练中)
我有一个加载图像的 tf.data 管道,目前我在 tf.data.Dataset 上使用单个 GPU 时通过获取单个批次来调整整个批次的大小。但是,我希望在分布式培训中做到这一点,我该怎么做?tf.data.Dataset 映射函数采用单个图像进行预处理,但是我希望做的是在批处理级别执行此操作。
python - 如何将编码序列(可变长度)编码为 tf.from_generator 的输入?
我正在尝试创建一个循环神经网络。输入是用户历史的序列,其中每个历史由一个序列(具有不同长度)的编码(每个具有形状(300))组成。这是代码:
当我执行它时,tf.convert_to_tensor
会引发错误:
我认为这与编码序列的可变长度有关,但我不明白如何解决它。
python - 如何添加嵌套字典作为 tf.data.Dataset.from_tensor_slices 的输入
我正在尝试使用该tf.data.Dataset.from_tensor_slices
命令加载数据集。
我的输入是以下格式的嵌套字典列表:
更新:
反序列化输入将不起作用,因为命令:(
将dataset = tf.data.Dataset.from_tensor_slices(pd.DataFrame.from_dict(pd.json_normalize(train_data)).to_dict(orient="list")))
给出错误
“所有输入的形状必须匹配:”
有谁知道如何使用 tf.dataset 从具有不同结构的嵌套字典列表中加载数据?
先感谢您!