问题标签 [joblib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
738 浏览

python - Joblib 并行写入“共享”numpy 稀疏矩阵

我试图为一个非常大的图(~1m 个节点)的每个节点计算共享邻居的数量。使用 Joblib 我试图并行运行它。但我担心并行写入稀疏矩阵,它应该保留所有数据。这段代码会产生一致的结果吗?

如果没有,你能帮我解决这个问题吗?

0 投票
1 回答
20252 浏览

python - 无法导入我的 util 模块

我正在使用sklearn.externals.joblib将分类器模型持久化到磁盘上,该磁盘实际上使用pickle较低级别的模块。

我创建了一个CountVectorizer名为的自定义类并将StemmedCountVectorizer其保存在 中util.py,然后在脚本中使用它来持久化模型

这是我使用 Flask 的项目结构:

我运行应用程序python run.py并尝试使用 in 加载持久对象,joblib.loadviews.py它不起作用,我导入了util模块但收到错误:

有人可以解决这个问题吗?谢谢

0 投票
1 回答
557 浏览

python - 使用 Joblib 的随机数生成器

我需要在使用 Joblib 并行的函数中生成随机数。但是,从内核生成的随机数是完全相同的。

目前我通过为不同的核心分配随机种子来解决这个问题。有什么简单的方法可以解决这个问题吗?

0 投票
1 回答
1708 浏览

python - 使用多处理和 h5py

尝试使用 joblib/multiprocessing 并行运行命令时出现错误:

这里的追溯:

正如您从错误消息中看到的那样,我处理使用 h5py 加载的数据。为了使事情进一步复杂化,我想并行化的例程在其子例程之一中使用 numba,但我希望这无关紧要。

这是一个正在运行的示例,您可以复制和粘贴该示例:

任何想法,我做错了什么?

编辑:好吧,至少我可以从恶人名单中排除 numba ......

0 投票
1 回答
8181 浏览

python - 来自 AWS S3 的 Sklearn joblib 加载函数 IO 错误

我正在尝试从 sklearn-learn 加载我的分类器的 pkl 转储。

对于我的对象,joblib 转储的压缩比 cPickle 转储好得多,所以我想坚持使用它。但是,尝试从 AWS S3 读取对象时出现错误。

案例:

  • 本地托管的 Pkl 对象:pickle.load 有效,joblib.load 有效
  • 使用 app 推送到 Heroku 的 Pkl 对象(从静态文件夹加载):pickle.load 有效,joblib.load 有效
  • 推送到 S3 的 Pkl 对象:pickle.load 有效,joblib.load 返回 IOError。(从heroku应用程序测试并从本地脚本测试)

请注意,joblib 和 pickle 的 pkl 对象是使用各自方法转储的不同对象。(即joblib 只加载joblib.dump(obj) 而pickle 只加载cPickle.dump(obj)。

Joblib 与 cPickle 代码

我的应用程序在案例 2 中运行良好,但由于加载速度非常慢,我想尝试将所有静态文件推送到 S3,尤其是这些 pickle 转储。joblib 加载与 pickle 的方式是否存在本质上的不同会导致此错误?

这是我的错误

这不是权限问题,因为我已将 s3 上的所有对象公开以进行测试,并且 pickle.dump 对象加载正常。如果我直接在浏览器中输入 url,joblib.dump 对象也会下载

我可能完全错过了一些东西。

谢谢。

0 投票
1 回答
981 浏览

multithreading - 如果从 QThread 启动,Joblib Parallel 仅使用一个内核

我正在开发一个 GUI,它执行一些繁重的数字运算。为了加快速度,我将 joblib 的并行执行与 pyqt 的 QThreads 一起使用,以避免 GUI 变得无响应。到目前为止,并行执行工作正常,但如果嵌入在 GUI 中并在自己的线程中运行,它只使用我的 4 个内核中的一个。我在线程/多处理世界中错过了什么基本的东西?

这是我的设置的粗略草图:

我希望它不会太长,同时也太模糊。我使用 pyqt4 4.11.3 和 joblib 0.8.4。

我再次检查了我的代码并注意到以下警告:

这将我的问题细化为以下内容:如何在单独的线程中运行多处理进程?

0 投票
2 回答
4698 浏览

python - python简单的并行计算与joblib

我以joblib 教程为例。这是我的代码的样子:

它产生以下错误消息:

而且运行时间太长。我错过了什么?

0 投票
1 回答
1392 浏览

parallel-processing - pymongo - 执行并行查询

这是我想并行化的伪代码,但不知道从哪里开始

我知道如何使用 joblib 创建并行循环,但我不确定如何并行查询 MongoDB,我应该创建多个客户端还是集合?如果我只是用 joblib 重写它而不关心 MongoDB,上面的代码会起作用吗?

0 投票
1 回答
542 浏览

python - Python joblib - 在 Windows 机器上获取并行计算的结果

这是我的代码:

它生成错误消息:print(result[-1]) TypeError: 'NoneType' object is not subscriptable. 此外,它不会终止。

由于我在 Window 7 上,我必须使用此检查if __name__ == '__main__':,但是如何从parallel_calc函数中获取结果?

0 投票
0 回答
517 浏览

python-3.x - RuntimeError: _ARRAY_API is not PyCObject object & RuntimeError: _UFUNC_API is not PyCObject object

我在python中写过这样的代码:

当我运行代码时,我收到以下错误:

RuntimeError:_ARRAY_API 不是 PyCObject 对象
RuntimeError:_UFUNC_API 不是 PyCObject 对象

我正在导入selective_search,您可以在此链接上看到:https ://github.com/belltailjp/selective_search_py/blob/master/selective_search.py

我已经安装了以下所有依赖项以及所需的或更高版本:

我的默认 python 版本是 3.4。

我该如何解决这个问题?