问题标签 [luigi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Luigi中存储的任务实例的完成状态在哪里
我从 Luigi 开始,我想知道 Luigi 怎么知道它不应该重新运行任务,因为它已经使用相同的参数成功运行。我通读了文档,但没有找到答案。
假设:
Luigi 是否将状态(任务实例及其结果)存储在内存中(它不使用数据库)?那么,当我重新启动调度程序时,它会忘记一切并重新运行所有任务?
或者,Luigi 是否总是为任何计划任务运行task.complete以查看是否应该运行该任务?这意味着
complete
处理程序应该非常快?或者,它是否以不同的方式工作?
感谢帮助!
python - 在 Luigi 管道中释放“资源”
我有一个 Luigi 管道,其中包含我批量运行的任务图。其中一些任务依赖于昂贵的资源(例如 AWS EC2 机器集群或其他昂贵的资源)。
我正在尝试以resource
一种智能的方式使用它,以便acquire
在运行任务之前使用release
它,并且在所有任务完成后立即使用它。一般来说,昂贵的资源是在管道的开始分配的,并且在依赖图的中途可以很好地释放。
是否有一种有效的方法可以在 Luigi 中对此进行建模,以实现资源的aquire
和release
?
Aquire
用and s对其进行建模Release
luigi.Task
并不是最优的,因为它给我的图增加了很多复杂性和不必要的边。理想情况下,scheduler
它会检查它state
,当没有更多RUNNING
或PENDING
需要资源的任务时,它可以检查release
它。
这是否已经存在,或者我必须自己将此功能添加到 Luigi?
python - 为什么 Spark Driver 读取本地文件
我使用 Spark Cluster Standalone。
master和single slave在同一个服务器(服务器B)。
我使用 Luigi(在服务器 A 上)提交我的应用程序并部署(客户端模式)。
我的应用程序读取服务器 B 上的本地文件。但是,该应用程序尝试读取服务器 A 上的文件。为什么?
python - Python Luigi 任务结构
我的第一个任务是从互联网上下载一个文件,下一个任务是解压缩它。我即将编写的下一个任务将从 tar 文件中的 CSV 文件读取并将其解析为多个文件。即 data/file_{var}、data/faile_{var2}.. 等。但我相信任务 3 需要有一个日期间隔才能传递给其他任务。
有没有办法解决这个问题,或者有更好的方法来构建我的任务?
python - 用 luigi 任务替换表加载功能
我有一个 python 函数,可以将数据从其他 2 个表加载到 sql server 表中。
我正在尝试将此功能转换为 luigi 任务
按照文档尝试了以下方法:
当我尝试运行它时,我收到错误:
我正在定义DateTask所以这个错误让我很困惑。
此外,是否所有任务都需要全部 3 个requires()、run、output?
另外,是否有必要始终将输出写入文件?在使用 luIgi 时是全新的,因此将不胜感激任何输入
python-2.7 - 从 cmd 运行 Luigi 任务 - “没有名为任务的模块”
我在通过 Windows cmd 运行 Luigi 任务时遇到问题。以下是事实:
运行安装在 C:\ProgramData\Anaconda2 (Python 2.7) 中的 Anaconda
Anaconda 已将其路径添加到 PATH 变量中,但没有 PYTHONPATH 变量
我要运行的任务位于
C:\....\tasks.py
尝试按如下方式运行它:
C:\.... luigi --module tasks MyTask --dt 20170316
ImportError: No module named tasks
我尝试创建一个PYTHONPATH
变量并将确切的路径添加到包含我的tasks.py
文件的目录,但它不起作用。我遇到的另一个可能相关的问题是当我通过 cmd 使用以下命令启动 luigi 调度程序时:
它工作正常,但每当我尝试使用以下方法启动它时:
我收到以下错误:
我的整体设置似乎有问题,任何帮助将不胜感激。
python - 如何使用 Luigi 持续更新目标文件?
我最近开始使用Luigi
,我想了解如何使用它来不断地将新数据附加到现有的目标文件中。
想象一下,我每分钟都在 ping 一个 api 来检索新数据。因为 aTask
仅在Target
不存在的情况下运行,所以一种天真的方法是通过当前的datetime
. 这是一个简单的例子:
如果我安排这个任务每分钟运行一次,它将执行,因为当前时间的目标文件还不存在。但它每分钟创建 60 个文件。相反,我想做的是确保所有新数据最终都在同一个文件中。实现这一目标的可扩展方法是什么?欢迎任何想法,建议!
python - Luigi - 运行时未完成 %s
我正在尝试以一种非常简单的方式学习 luigi 的工作原理。就像一个新手一样,我想出了这段代码
在命令提示符下运行它会给出错误提示
这是:
python-2.7 - Luigi - 执行 2 个管道作业,(必须同步,不能并行)
我进入 Luigi 框架开发,我想在一个类中执行 2 个作业(两者都是管道作业),但是当 Job1 完全执行时,Job2 必须只运行。
有什么办法可以执行job1,一旦完成,就去执行Job2。
任何帮助深表感谢