问题标签 [joblib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Joblib 并行写入“共享”numpy 稀疏矩阵
我试图为一个非常大的图(~1m 个节点)的每个节点计算共享邻居的数量。使用 Joblib 我试图并行运行它。但我担心并行写入稀疏矩阵,它应该保留所有数据。这段代码会产生一致的结果吗?
如果没有,你能帮我解决这个问题吗?
python - 无法导入我的 util 模块
我正在使用sklearn.externals.joblib
将分类器模型持久化到磁盘上,该磁盘实际上使用pickle
较低级别的模块。
我创建了一个CountVectorizer
名为的自定义类并将StemmedCountVectorizer
其保存在 中util.py
,然后在脚本中使用它来持久化模型
这是我使用 Flask 的项目结构:
我运行应用程序python run.py
并尝试使用 in 加载持久对象,joblib.load
但views.py
它不起作用,我导入了util
模块但收到错误:
有人可以解决这个问题吗?谢谢
python - 使用 Joblib 的随机数生成器
我需要在使用 Joblib 并行的函数中生成随机数。但是,从内核生成的随机数是完全相同的。
目前我通过为不同的核心分配随机种子来解决这个问题。有什么简单的方法可以解决这个问题吗?
python - 使用多处理和 h5py
尝试使用 joblib/multiprocessing 并行运行命令时出现错误:
这里的追溯:
正如您从错误消息中看到的那样,我处理使用 h5py 加载的数据。为了使事情进一步复杂化,我想并行化的例程在其子例程之一中使用 numba,但我希望这无关紧要。
这是一个正在运行的示例,您可以复制和粘贴该示例:
任何想法,我做错了什么?
编辑:好吧,至少我可以从恶人名单中排除 numba ......
python - 来自 AWS S3 的 Sklearn joblib 加载函数 IO 错误
我正在尝试从 sklearn-learn 加载我的分类器的 pkl 转储。
对于我的对象,joblib 转储的压缩比 cPickle 转储好得多,所以我想坚持使用它。但是,尝试从 AWS S3 读取对象时出现错误。
案例:
- 本地托管的 Pkl 对象:pickle.load 有效,joblib.load 有效
- 使用 app 推送到 Heroku 的 Pkl 对象(从静态文件夹加载):pickle.load 有效,joblib.load 有效
- 推送到 S3 的 Pkl 对象:pickle.load 有效,joblib.load 返回 IOError。(从heroku应用程序测试并从本地脚本测试)
请注意,joblib 和 pickle 的 pkl 对象是使用各自方法转储的不同对象。(即joblib 只加载joblib.dump(obj) 而pickle 只加载cPickle.dump(obj)。
Joblib 与 cPickle 代码
我的应用程序在案例 2 中运行良好,但由于加载速度非常慢,我想尝试将所有静态文件推送到 S3,尤其是这些 pickle 转储。joblib 加载与 pickle 的方式是否存在本质上的不同会导致此错误?
这是我的错误
这不是权限问题,因为我已将 s3 上的所有对象公开以进行测试,并且 pickle.dump 对象加载正常。如果我直接在浏览器中输入 url,joblib.dump 对象也会下载
我可能完全错过了一些东西。
谢谢。
multithreading - 如果从 QThread 启动,Joblib Parallel 仅使用一个内核
我正在开发一个 GUI,它执行一些繁重的数字运算。为了加快速度,我将 joblib 的并行执行与 pyqt 的 QThreads 一起使用,以避免 GUI 变得无响应。到目前为止,并行执行工作正常,但如果嵌入在 GUI 中并在自己的线程中运行,它只使用我的 4 个内核中的一个。我在线程/多处理世界中错过了什么基本的东西?
这是我的设置的粗略草图:
我希望它不会太长,同时也太模糊。我使用 pyqt4 4.11.3 和 joblib 0.8.4。
我再次检查了我的代码并注意到以下警告:
这将我的问题细化为以下内容:如何在单独的线程中运行多处理进程?
parallel-processing - pymongo - 执行并行查询
这是我想并行化的伪代码,但不知道从哪里开始
我知道如何使用 joblib 创建并行循环,但我不确定如何并行查询 MongoDB,我应该创建多个客户端还是集合?如果我只是用 joblib 重写它而不关心 MongoDB,上面的代码会起作用吗?
python - Python joblib - 在 Windows 机器上获取并行计算的结果
这是我的代码:
它生成错误消息:print(result[-1]) TypeError: 'NoneType' object is not subscriptable
. 此外,它不会终止。
由于我在 Window 7 上,我必须使用此检查if __name__ == '__main__':
,但是如何从parallel_calc
函数中获取结果?
python-3.x - RuntimeError: _ARRAY_API is not PyCObject object & RuntimeError: _UFUNC_API is not PyCObject object
我在python中写过这样的代码:
当我运行代码时,我收到以下错误:
RuntimeError:_ARRAY_API 不是 PyCObject 对象
RuntimeError:_UFUNC_API 不是 PyCObject 对象
我正在导入selective_search,您可以在此链接上看到:https ://github.com/belltailjp/selective_search_py/blob/master/selective_search.py
我已经安装了以下所有依赖项以及所需的或更高版本:
我的默认 python 版本是 3.4。
我该如何解决这个问题?