问题标签 [tensorflow-gpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - TensorFlow DNNRegressor 没有学习
我正在尝试构建一个 DNNRegressor 来学习 196 个特征来预测 1 个标签,所有实数。
我尝试了多种不同的馈送数据和批次,但似乎没有任何效果...... fit() 的输出保持不变INFO:tensorflow:loss = 1.59605e+32
,当尝试预测相同的训练数据时,输出超出了我的标签范围(即在 -1.7 到 2.6 之间,但我得到如下预测:2.9873503e+09)
谁能帮忙,我做错了什么?
我的代码如下:
我在 gpu 支持下运行 tf。我注意到的一件事是,当第一次调用 fit() 函数时,我得到:
但在那之后它仍然运行。非常感谢!
更新:我注意到一些输入列全为零。当我删除它们时,网络会学习并收敛。我尝试将这些列输入为分类列(二进制),但这也使学习不收敛。
tensorflow - ResourceExhaustedError:OOM 时分配形状 [3840,4096] 的张量和类型浮点数(内存不足问题)
由于资源分配错误,培训无法启动,我已检查了有关此问题的所有帖子。我该如何解决?我还尝试使用 TFFRCNN 中发布的 BFC 分配器 GPU 解决方案。我已将其添加到下面的培训代码中作为评论。还在这里检查了 Yaroslav Bulatov 提出的问题:https ://github.com/CharlesShang/TFFRCNN/issues/68
如果需要任何更改,任何人都可以帮助我修改代码吗?我也尝试减少批量大小,并尝试在 GPU 训练服务器上运行它。我无法修复它。
我正在使用来自https://github.com/MasazI/cnn_depth_tensorflow的代码 请查看上述链接中的 train_operation.py 文件。我只修改了task.py
我的培训代码:
tensorflow - 学习tensorflow的推荐硬件?
我是一名软件开发人员,我想尝试人工智能、机器学习等。我想了解现成的不同算法和技术、如何使用它们以及哪些算法适用于不同类型的挑战。TensorFlow 看起来像是开始尝试的好软件,所以我将从 TF 开始。
我对图像处理不感兴趣。我最感兴趣的是理解数据中的模式并做出预测。
我是否能够仅使用具有 8 个线程的现代 i7 试验所有常见示例并尝试 TF 的所有算法和功能,或者我是否肯定需要 GPU 以便在每次实验之间不等待数小时?
如果我确实需要 GPU,入门级 CUDA 3.0+ GPU 是否足够(例如 Geforce 730M 和 2GB RAM,可能是最便宜的兼容 GPU)或者我需要像 1050Ti/1080GTX/Ti 等具有更多冲击力和 RAM 的东西?
在 google 或 AWS 上学习是否实用,还是我最好购买硬件?
我担心的是我在花哨的显卡上花了很多钱,然后就没有真正进入 ML 编程,这就是浪费钱。我不知道我是否会觉得它有趣/有用。所以我还没有试图用 ML 征服世界。
总结一下,我的短期目标:
获得一些 ML 经验,以便我知道哪些技术/算法可用/适用于不同类型的任务。
看看我是否觉得 ML 有趣
如果我想进一步投资,了解我需要什么样的硬件。
我买得起1080Ti来做实验,但我不想在不了解的情况下浪费钱。如果我购买更便宜的 GPU,如 1050Ti,我可以稍后添加 1080Ti,还是最好我所有的 GPU 都相同?
tensorflow - TFR记录读取变慢
我已将数据集划分为 10 个 tfrecords 文件,我想从每个文件中读取 100 个数据点,以创建一批 10 个 100 个数据点的序列。我使用以下函数来做到这一点。来自 tfrecords 的数据加载时间开始缓慢,然后达到大约 0.65 秒,在 100-200 sess.run 调用后增加到大约 10 秒。您能否指出任何可能有助于减少阅读时间的错误或建议?此外,我提到的行为有时会变得更加不稳定。
即使我按如下方式从单个文件中提取,我也观察到相同的行为。此外,增加 num_threads 也无济于事。
python - 在 tensorflow gpu 中训练卷积神经网络时出现“Python 已停止工作”
这是我编写的一个 tensorflow 代码,用于测试只有 1 个卷积和池化层的卷积神经网络,其中只有 512 个神经元的 1 个全连接层。
我的数据集只有 2 张图片: http: //imgur.com/et1Sn1k和http://imgur.com/ZWxOGgO
当我训练我的网络窗口时会弹出“Python 已停止”(ss:http: //imgur.com/tc5jWlA)
这是我的代码:
输出:
我的电脑规格(联想 Y50):Nvidia GTX 960m 4 GB 内存,Intel I7 4th gen,8 GB RAM
Python 3.5 + 带 GPU 的 TensorFlow
python - 了解 random_shuffle_queue 何时用完元素并关闭它
我有1000
大小32x32x3
存储在dummy.tfrecord
文件中的图像。我想迭代数据集两次(2 个时期),所以我指定tf.train.string_input_producer([dummy.tfrecord], num_epochs=2)
. 对于批量大小100
,我希望tf.train.shuffle_batch
运行2 * 10 = 20
迭代,因为它需要10
批量100
来耗尽1000
图像。
我遵循了这个答案,它确实20
按预期产生了迭代。但是,最后,我收到了错误:
这是有道理的,因为0
队列中还有图像。
如何关闭队列并干净地退出?也就是说,不应该有错误。
这是完整的脚本:
dummy.tfrecord
如果有人想重现,这是生成文件的脚本:
python - 在 Windows 10 上安装 Tensorflow 时遇到与 Anaconda 相关的错误跟踪
我有 python 3.6 并在运行 pip install 后收到此消息
python -m pip install --upgrade pip
我已经从我的 Visual Studio Community Edition 包中自动安装了 Python,它可以与该程序一起使用。
Exception:
Traceback (most recent call last):
File "C:\Program Files\Anaconda3\lib\site-packages\pip\basecommand.py", line 2 15, in main
status = self.run(options, args)
File "C:\Program Files\Anaconda3\lib\site-packages\pip\commands\install.py", l ine 342, in run
prefix=options.prefix_path,
File "C:\Program Files\Anaconda3\lib\site-packages\pip\req\req_set.py", line 7 84, in install
**kwargs
File "C:\Program Files\Anaconda3\lib\site-packages\pip\req\req_install.py", li ne 851, in install
self.move_wheel_files(self.source_dir, root=root, prefix=prefix)
File "C:\Program Files\Anaconda3\lib\site-packages\pip\req\req_install.py", li ne 1064, in move_wheel_files
isolated=self.isolated,
File "C:\Program Files\Anaconda3\lib\site-packages\pip\wheel.py", line 345, in move_wheel_files
clobber(source, lib_dir, True)
File "C:\Program Files\Anaconda3\lib\site-packages\pip\wheel.py", line 323, in clobber
shutil.copyfile(srcfile, destfile)
File "C:\Program Files\Anaconda3\lib\shutil.py", line 115, in copyfile
with open(dst, 'wb') as fdst:
PermissionError: [Errno 13] Permission denied: 'C:\\Program Files\\Anaconda3\\Li b\\site-packages\\protobuf-3.3.0-py3.6-nspkg.pth'
tensorflow - Tensorflow:用不同的内核对每个图像进行卷积
在 TensorFlow 中,如何使用不同的 2D 内核对 minibatch 中的每个图像进行卷积?每个小批量图像都有大小[10000, 32, 32]
,相应的过滤器有大小[10000, 2, 2]
---10000 个内核,每个 2 像素 x 2 像素。我想得到 size 的输出[10000, 31, 31]
。(我计划将步长设置为 1,并使用“VALID”选项关闭填充,因此输出图像的大小为 31x31,而输入图像的大小为 32x32。)
在一个相关问题中,解决方案是向小批量图像添加“深度”维度,然后使用 conv3d 而不是 conv2d。但在那个问题中,操作似乎满足于只返回一张图像作为输出,而不是为小批量中的每个样本返回一张图像作为输出。
tensorflow - 如何将cudnn5.1升级到cudnn6
我已经按照在 Windows 上安装 TensorFlow安装了 tensorflow-gpu ,当我导入 tensorflow 时它似乎运行良好,但是今天当我尝试一个新程序时,它显示了一些错误:
`
`
我知道这意味着我应该将我的 cudnn5.1 升级到 cudnn6,然后我下载 cudnn6 并将文件复制到我的 cuda 安装目录。然后在cudn/v8.0/bin目录下存在两个cudnn dll:cudnn64_5.dll和cudnn64_6.dll。
当我重新运行我的程序时,仍然出现同样的错误,当我删除 cudnn64_5.dll 时,我什至无法运行我的程序,出现一些新的错误:
`
`
我将我的cudnn64_6.dll重命名为cudnn64_5..dll,上面的错误消失了但仍然显示我的cudnn版本是5105。看来我必须做其他事情才能使cudnn升级工作,但我不知道。什么我应该怎么做才能解决错误?
python - 在TensorFlow中设计网络时如何更改张量的值
我刚刚开始学习 TensorFlow,但遇到了一些问题。几天前,我阅读了这篇论文——深度压缩:使用剪枝、训练量化和霍夫曼编码压缩深度神经网络。在剪枝部分,作者首先通过正常的网络训练来学习连通性。接下来,他们修剪小权重的连接:所有权重低于阈值的连接都从网络中删除。最后,他们重新训练网络以学习剩余稀疏连接的最终权重。
我想获取每一层的所有权重,并与阈值一一比较,并将小权重设置为零。这是我的代码,有一个异常 TypeError("Using a tf.Tensor
as a Python bool
is not allowed.")。设计网络时如何获取权重张量的值?有没有人实现过这个代码或任何其他建议的方法?提前致谢!