问题标签 [tensorflow-gpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
335 浏览

python - TensorFlow DNNRegressor 没有学习

我正在尝试构建一个 DNNRegressor 来学习 196 个特征来预测 1 个标签,所有实数。

我尝试了多种不同的馈送数据和批次,但似乎没有任何效果...... fit() 的输出保持不变INFO:tensorflow:loss = 1.59605e+32,当尝试预测相同的训练数据时,输出超出了我的标签范围(即在 -1.7 到 2.6 之间,但我得到如下预测:2.9873503e+09)

谁能帮忙,我做错了什么?

我的代码如下:

我在 gpu 支持下运行 tf。我注意到的一件事是,当第一次调用 fit() 函数时,我得到:

但在那之后它仍然运行。非常感谢!

更新:我注意到一些输入列全为零。当我删除它们时,网络会学习并收敛。我尝试将这些列输入为分类列(二进制),但这也使学习不收敛。

0 投票
0 回答
3357 浏览

tensorflow - ResourceExhaustedError:OOM 时分配形状 [3840,4096] 的张量和类型浮点数(内存不足问题)

由于资源分配错误,培训无法启动,我已检查了有关此问题的所有帖子。我该如何解决?我还尝试使用 TFFRCNN 中发布的 BFC 分配器 GPU 解决方案。我已将其添加到下面的培训代码中作为评论。还在这里检查了 Yaroslav Bulatov 提出的问题:https ://github.com/CharlesShang/TFFRCNN/issues/68

如果需要任何更改,任何人都可以帮助我修改代码吗?我也尝试减少批量大小,并尝试在 GPU 训练服务器上运行它。我无法修复它。

我正在使用来自https://github.com/MasazI/cnn_depth_tensorflow的代码 请查看上述链接中的 train_operation.py 文件。我只修改了task.py

我的培训代码:

0 投票
1 回答
2419 浏览

tensorflow - 学习tensorflow的推荐硬件?

我是一名软件开发人员,我想尝试人工智能、机器学习等。我想了解现成的不同算法和技术、如何使用它们以及哪些算法适用于不同类型的挑战。TensorFlow 看起来像是开始尝试的好软件,所以我将从 TF 开始。

我对图像处理不感兴趣。我最感兴趣的是理解数据中的模式并做出预测。

我是否能够仅使用具有 8 个线程的现代 i7 试验所有常见示例并尝试 TF 的所有算法和功能,或者我是否肯定需要 GPU 以便在每次实验之间不等待数小时?

如果我确实需要 GPU,入门级 CUDA 3.0+ GPU 是否足够(例如 Geforce 730M 和 2GB RAM,可能是最便宜的兼容 GPU)或者我需要像 1050Ti/1080GTX/Ti 等具有更多冲击力和 RAM 的东西?

在 google 或 AWS 上学习是否实用,还是我最好购买硬件?

我担心的是我在花哨的显卡上花了很多钱,然后就没有真正进入 ML 编程,这就是浪费钱。我不知道我是否会觉得它有趣/有用。所以我还没有试图用 ML 征服世界。

总结一下,我的短期目标:

  1. 获得一些 ML 经验,以便我知道哪些技术/算法可用/适用于不同类型的任务。

  2. 看看我是否觉得 ML 有趣

  3. 如果我想进一步投资,了解我需要什么样的硬件。

我买得起1080Ti来做实验,但我不想在不了解的情况下浪费钱。如果我购买更便宜的 GPU,如 1050Ti,我可以稍后添加 1080Ti,还是最好我所有的 GPU 都相同?

0 投票
1 回答
1720 浏览

tensorflow - TFR记录读取变慢

我已将数据集划分为 10 个 tfrecords 文件,我想从每个文件中读取 100 个数据点,以创建一批 10 个 100 个数据点的序列。我使用以下函数来做到这一点。来自 tfrecords 的数据加载时间开始缓慢,然后达到大约 0.65 秒,在 100-200 sess.run 调用后增加到大约 10 秒。您能否指出任何可能有助于减少阅读时间的错误或建议?此外,我提到的行为有时会变得更加不稳定。

即使我按如下方式从单个文件中提取,我也观察到相同的行为。此外,增加 num_threads 也无济于事。

0 投票
2 回答
1266 浏览

python - 在 tensorflow gpu 中训练卷积神经网络时出现“Python 已停止工作”

这是我编写的一个 tensorflow 代码,用于测试只有 1 个卷积和池化层的卷积神经网络,其中只有 512 个神经元的 1 个全连接层。

我的数据集只有 2 张图片: http: //imgur.com/et1Sn1khttp://imgur.com/ZWxOGgO

当我训练我的网络窗口时会弹出“Python 已停止”(ss:http: //imgur.com/tc5jWlA

这是我的代码:

输出:

我的电脑规格(联想 Y50):Nvidia GTX 960m 4 GB 内存,Intel I7 4th gen,8 GB RAM

Python 3.5 + 带 GPU 的 TensorFlow

0 投票
1 回答
284 浏览

python - 了解 random_shuffle_queue 何时用完元素并关闭它

我有1000大小32x32x3存储在dummy.tfrecord文件中的图像。我想迭代数据集两次(2 个时期),所以我指定tf.train.string_input_producer([dummy.tfrecord], num_epochs=2). 对于批量大小100,我希望tf.train.shuffle_batch运行2 * 10 = 20迭代,因为它需要10批量100来耗尽1000图像。

我遵循了这个答案,它确实20按预期产生了迭代。但是,最后,我收到了错误:

这是有道理的,因为0队列中还有图像。

如何关闭队列并干净地退出?也就是说,不应该有错误。

这是完整的脚本:

dummy.tfrecord如果有人想重现,这是生成文件的脚本:

0 投票
0 回答
386 浏览

python - 在 Windows 10 上安装 Tensorflow 时遇到与 Anaconda 相关的错误跟踪

我有 python 3.6 并在运行 pip install 后收到此消息

python -m pip install --upgrade pip

我已经从我的 Visual Studio Community Edition 包中自动安装了 Python,它可以与该程序一起使用。

Exception: Traceback (most recent call last): File "C:\Program Files\Anaconda3\lib\site-packages\pip\basecommand.py", line 2 15, in main status = self.run(options, args) File "C:\Program Files\Anaconda3\lib\site-packages\pip\commands\install.py", l ine 342, in run prefix=options.prefix_path, File "C:\Program Files\Anaconda3\lib\site-packages\pip\req\req_set.py", line 7 84, in install **kwargs File "C:\Program Files\Anaconda3\lib\site-packages\pip\req\req_install.py", li ne 851, in install self.move_wheel_files(self.source_dir, root=root, prefix=prefix) File "C:\Program Files\Anaconda3\lib\site-packages\pip\req\req_install.py", li ne 1064, in move_wheel_files isolated=self.isolated, File "C:\Program Files\Anaconda3\lib\site-packages\pip\wheel.py", line 345, in move_wheel_files clobber(source, lib_dir, True) File "C:\Program Files\Anaconda3\lib\site-packages\pip\wheel.py", line 323, in clobber shutil.copyfile(srcfile, destfile) File "C:\Program Files\Anaconda3\lib\shutil.py", line 115, in copyfile with open(dst, 'wb') as fdst: PermissionError: [Errno 13] Permission denied: 'C:\\Program Files\\Anaconda3\\Li b\\site-packages\\protobuf-3.3.0-py3.6-nspkg.pth'

0 投票
1 回答
343 浏览

tensorflow - Tensorflow:用不同的内核对每个图像进行卷积

在 TensorFlow 中,如何使用不同的 2D 内核对 minibatch 中的每个图像进行卷积?每个小批量图像都有大小[10000, 32, 32],相应的过滤器有大小[10000, 2, 2]---10000 个内核,每个 2 像素 x 2 像素。我想得到 size 的输出[10000, 31, 31]。(我计划将步长设置为 1,并使用“VALID”选项关闭填充,因此输出图像的大小为 31x31,而输入图像的大小为 32x32。)

一个相关问题中,解决方案是向小批量图像添加“深度”维度,然后使用 conv3d 而不是 conv2d。但在那个问题中,操作似乎满足于只返回一张图像作为输出,而不是为小批量中的每个样本返回一张图像作为输出。

0 投票
1 回答
1142 浏览

tensorflow - 如何将cudnn5.1升级到cudnn6

我已经按照在 Windows 上安装 TensorFlow安装了 tensorflow-gpu ,当我导入 tensorflow 时它似乎运行良好,但是今天当我尝试一个新程序时,它显示了一些错误:

`

`

我知道这意味着我应该将我的 cudnn5.1 升级到 cudnn6,然后我下载 cudnn6 并将文件复制到我的 cuda 安装目录。然后在cudn/v8.0/bin目录下存在两个cudnn dll:cudnn64_5.dll和cudnn64_6.dll。

当我重新运行我的程序时,仍然出现同样的错误,当我删除 cudnn64_5.dll 时,我什至无法运行我的程序,出现一些新的错误:

`

`

我将我的cudnn64_6.dll重命名为cudnn64_5..dll,上面的错误消失了但仍然显示我的cudnn版本是5105。看来我必须做其他事情才能使cudnn升级工作,但我不知道。什么我应该怎么做才能解决错误?

0 投票
1 回答
238 浏览

python - 在TensorFlow中设计网络时如何更改张量的值

我刚刚开始学习 TensorFlow,但遇到了一些问题。几天前,我阅读了这篇论文——深度压缩:使用剪枝、训练量化和霍夫曼编码压缩深度神经网络。在剪枝部分,作者首先通过正常的网络训练来学习连通性。接下来,他们修剪小权重的连接:所有权重低于阈值的连接都从网络中删除。最后,他们重新训练网络以学习剩余稀疏连接的最终权重。

我想获取每一层的所有权重,并与阈值一一比较,并将小权重设置为零。这是我的代码,有一个异常 TypeError("Using a tf.Tensoras a Python boolis not allowed.")。设计网络时如何获取权重张量的值?有没有人实现过这个代码或任何其他建议的方法?提前致谢!