问题标签 [papermill]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1153 浏览

python - 用 papermill 执行一个 Jupyter notebook 并输出一个唯一的文件名

我想papermill用作数据科学工作流程的一部分来记录实验。关键思想是输出笔记本应该被存储为一个独特的工件——一个不可变的实验记录。因此,我希望输出文件名是唯一的文件名,例如experiment_<hash>.ipynb. 如何在 linux CLI 上自动执行此操作?从papermill docs看来,我必须指定确切的输出文件名,例如

而我真正想要的是

我想在papermill通话中自动执行此操作。手动方式是

但我不想通过剪切和粘贴手动完成。

0 投票
1 回答
337 浏览

python-3.x - 如何使用 papermill 将单个单元格的进度打印到控制台?

我希望我的程序在使用 papermill 运行时将进度打印到控制台。我正在使用以下代码:

在一个for循环中,它不会将字符串打印到控制台,所以除了stage在 papermill 中观察输出部分之外,我不知道进度有多远。造纸厂代码如下:

有什么建议么?

0 投票
1 回答
438 浏览

python - 我可以将 Papermill 和 Scrapbook 与 AWS EMR Notebooks 一起使用吗?

我有几个笔记本,它们由使用造纸机的“驱动程序”笔记本运行。这些笔记本使用剪贴簿库将信息传达给驾驶员。然后驱动程序将此信息作为参数传递给其他笔记本。我想使用 EMR Notebooks 来优化这个“笔记本管道”的执行效率。AWS EMR Notebooks 是否支持剪贴簿和纸厂,还是我需要重构我的笔记本?

0 投票
1 回答
1144 浏览

python - 从 python 代码连接到远程 python 内核

我一直在使用PaperMill定期执行我的 python 笔记本。要执行计算密集型笔记本,我需要连接到在我的 EMR 集群中运行的远程内核。

在 Jupyter notebook 的情况下,我可以通过启动 jupyter 服务器来做到这一点,jupyter notebook --gateway-url=http://my-gateway-server:8888并且我可以在远程内核上执行我的代码。但是如何让我的本地 python 代码(通过 PaperMill)使用远程内核?在内核管理器中进行哪些更改以连接到远程内核?

我能找到的一个相关的 SO 答案在这里。这建议对远程服务器进行端口转发,并使用来自服务器的连接文件初始化 KernelManager。我无法做到这一点,因为blockingkernelmanagerIpython.zmp 中不再存在,我也更喜欢像 jupyter 那样的 HTTP 连接。

0 投票
2 回答
164 浏览

python - Jupyter notebook 执行基于用户输入的自动化参数

我正在尝试构建一个服务,允许用户使用笔记本在单元格中设置自动化参数,例如笔记本应该开始执行的开始时间。然后,该服务将使用此输入时间并在所需时间执行笔记本并将执行的笔记本存储到 S3。我已经调查过了papermill,但我相信没有办法使用它来添加自动化参数,比如开始执行时间。有没有办法做到这一点?或者造纸厂有没有办法做到这一点?

0 投票
0 回答
504 浏览

python - 内核在执行 papermill 时死亡

我正在尝试使用以下代码使用 papermill 自动生成几个笔记本:

不过,我收到一条错误消息

这似乎是因为内存完全被淹没了,因为我在运行代码时通过监控系统进行了检查。显然,上面的代码片段生成了几个进程来运行参数化的笔记本,一旦迭代完成,这些进程就不会被杀死,从而在内存中累积。我能做些什么来解决这个问题?我使用的是 Ubuntu 18.04,代码在 anaconda 2019.10 环境中运行。

0 投票
1 回答
2524 浏览

python - 气流错误 - 得到一个意外的关键字参数“min”

我正在尝试运行一个非常简单的测试 DAG 来掌握 GCP Cloud Composer 的基本功能,但是每次我触发 DAG 时,都会弹出一个令人讨厌的错误,我似乎找不到任何有关如何解决的信息它。

错误是:

我的 DAG 的代码是:

我已经从https://github.com/nteract/papermill/issues/445尝试过的一种解决方案是更新 Tenacity 的版本,但将其添加到我的 Cloud Composer 环境的 PyPi Packages 选项卡并没有解决任何问题。

任何帮助将不胜感激,谢谢!

编辑:图像版本是 composer-1.9.2-airflow.1.10.6。

0 投票
0 回答
1489 浏览

airflow - 带有 PapermillOperator 的 Airflow 中的“错误 - 无法编译非模板节点”是什么意思?

我正在运行我的第一个 Papermill 任务,即运行 Jupyter 笔记本。这是运算符:

我认为文件路径是正确的:

然后,出现以下错误:

有人知道我在做什么错吗?

0 投票
1 回答
312 浏览

papermill - 运行 papermill 我收到 FileNotFound 错误

papermill在 Mac OS 中新创建的虚拟环境中运行 2.1.0

当我执行一个简单的笔记本时,我得到:FileNotFoundError,指的是不再存在的旧文件。

我得到以下信息:

我重新安装 Python3、papermill 和 virtualenv 和同样的问题

0 投票
2 回答
225 浏览

python - 以特定顺序在同一个线程中运行多个函数

我有三个函数使用 papermill 执行 3 个不同的 jupyter 笔记本,我希望第一个 (job1) 和第二个 (job2) 函数同时运行,最后一个函数 (job3) 仅在第一个函数 (job1) 完成运行后运行任何错误。我不确定为第二个函数创建一个新线程或如何正确使用 join() 方法是否有意义。我在 Windows 上运行,由于某种原因 concurrent.futures 和多处理不起作用,这就是我使用线程模块的原因。