问题标签 [luigi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
857 浏览

python - Luigi中存储的任务实例的完成状态在哪里

我从 Luigi 开始,我想知道 Luigi 怎么知道它不应该重新运行任务,因为它已经使用相同的参数成功运行。我通读了文档,但没有找到答案。

假设:

  • Luigi 是否将状态(任务实例及其结果)存储在内存中(它不使用数据库)?那么,当我重新启动调度程序时,它会忘记一切并重新运行所有任务?

  • 或者,Luigi 是否总是为任何计划任务运行task.complete以查看是否应该运行该任务?这意味着complete处理程序应该非常快?

  • 或者,它是否以不同的方式工作?

感谢帮助!

0 投票
1 回答
351 浏览

python - 在 Luigi 管道中释放“资源”

我有一个 Luigi 管道,其中包含我批量运行的任务图。其中一些任务依赖于昂贵的资源(例如 AWS EC2 机器集群或其他昂贵的资源)。

我正在尝试以resource一种智能的方式使用它,以便acquire在运行任务之前使用release它,并且在所有任务完成后立即使用它。一般来说,昂贵的资源是在管道的开始分配的,并且在依赖图的中途可以很好地释放。

是否有一种有效的方法可以在 Luigi 中对此进行建模,以实现资源的aquirerelease

Aquire用and s对其进行建模Release luigi.Task并不是最优的,因为它给我的图增加了很多复杂性和不必要的边。理想情况下,scheduler它会检查它state,当没有更多RUNNINGPENDING需要资源的任务时,它可以检查release它。

这是否已经存在,或者我必须自己将此功能添加到 Luigi?

0 投票
1 回答
322 浏览

python - 为什么 Spark Driver 读取本地文件

我使用 Spark Cluster Standalone。

master和single slave在同一个服务器(服务器B)。

我使用 Luigi(在服务器 A 上)提交我的应用程序并部署(客户端模式)。

我的应用程序读取服务器 B 上的本地文件。但是,该应用程序尝试读取服务器 A 上的文件。为什么?

0 投票
1 回答
653 浏览

python - Python Luigi 任务结构

我的第一个任务是从互联网上下载一个文件,下一个任务是解压缩它。我即将编写的下一个任务将从 tar 文件中的 CSV 文件读取并将其解析为多个文件。即 data/file_{var}、data/faile_{var2}.. 等。但我相信任务 3 需要有一个日期间隔才能传递给其他任务。

有没有办法解决这个问题,或者有更好的方法来构建我的任务?

0 投票
1 回答
151 浏览

python - 我需要自己为 LocalTargets 处理原子性吗?

0 投票
1 回答
697 浏览

python - 用 luigi 任务替换表加载功能

我有一个 python 函数,可以将数据从其他 2 个表加载到 sql server 表中。

我正在尝试将此功能转换为 luigi 任务

按照文档尝试了以下方法:

当我尝试运行它时,我收到错误:

我正在定义DateTask所以这个错误让我很困惑。

此外,是否所有任务都需要全部 3 个requires()runoutput

另外,是否有必要始终将输出写入文件?在使用 luIgi 时是全新的,因此将不胜感激任何输入

0 投票
4 回答
9350 浏览

python-2.7 - 从 cmd 运行 Luigi 任务 - “没有名为任务的模块”

我在通过 Windows cmd 运行 Luigi 任务时遇到问题。以下是事实:

  • 运行安装在 C:\ProgramData\Anaconda2 (Python 2.7) 中的 Anaconda

  • Anaconda 已将其路径添加到 PATH 变量中,但没有 PYTHONPATH 变量

  • 我要运行的任务位于C:\....\tasks.py

  • 尝试按如下方式运行它:

    C:\.... luigi --module tasks MyTask --dt 20170316
    ImportError: No module named tasks

我尝试创建一个PYTHONPATH变量并将确切的路径添加到包含我的tasks.py文件的目录,但它不起作用。我遇到的另一个可能相关的问题是当我通过 cmd 使用以下命令启动 luigi 调度程序时:

它工作正常,但每当我尝试使用以下方法启动它时:

我收到以下错误:

我的整体设置似乎有问题,任何帮助将不胜感激。

0 投票
2 回答
1066 浏览

python - 如何使用 Luigi 持续更新目标文件?

我最近开始使用Luigi,我想了解如何使用它来不断地将新数据附加到现有的目标文件中。

想象一下,我每分钟都在 ping 一个 api 来检索新数据。因为 aTask仅在Target不存在的情况下运行,所以一种天真的方法是通过当前的datetime. 这是一个简单的例子:

如果我安排这个任务每分钟运行一次,它将执行,因为当前时间的目标文件还不存在。但它每分钟创建 60 个文件。相反,我想做的是确保所有新数据最终都在同一个文件。实现这一目标的可扩展方法是什么?欢迎任何想法,建议!

0 投票
3 回答
6088 浏览

python - Luigi - 运行时未完成 %s

我正在尝试以一种非常简单的方式学习 luigi 的工作原理。就像一个新手一样,我想出了这段代码

在命令提示符下运行它会给出错误提示

这是:

0 投票
2 回答
122 浏览

python-2.7 - Luigi - 执行 2 个管道作业,(必须同步,不能并行)

我进入 Luigi 框架开发,我想在一个类中执行 2 个作业(两者都是管道作业),但是当 Job1 完全执行时,Job2 必须只运行。

有什么办法可以执行job1,一旦完成,就去执行Job2。

任何帮助深表感谢