问题标签 [luigi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
453 浏览

python - Luigid 语法错误

我正在尝试在中央调度程序模式下使用 luigi。每当我尝试使用命令运行中央调度程序时

它返回一个语法错误

0 投票
1 回答
458 浏览

python - 为 WrapperTask 重试 .complete()

我正在使用 Luigi 运行多个任务,然后我需要将输出批量传输到标准化文件位置。我写了一个 WrapperTask 用一个重写的complete()方法来做到这一点:

complete()但是当过程实际完成时,我无法获得要调用的条件部分。

我认为这是因为其他人指出的异步行为,但我不知道如何解决它。

我尝试使用以下命令行参数运行 Luigi:

但这似乎无法正常工作。这是处理此类任务的正确方法吗?

另外,我很好奇——有没有人有过这个--worker-retry-external-task命令的经验?我很难理解它。

源代码中,

被调用以确定 LuigiTask 是否有run()方法,而 aWrapperTask没有。因此,我希望--retry-external-task标志在complete()完成之前重试此操作,从而执行操作。但是,只是在解释器中玩弄让我相信:

这段代码片段并没有按照它认为的那样做。

我是不是在这里离群?

0 投票
1 回答
3679 浏览

python - Python Luigi - 满意时继续执行外部任务

我正在研究一个 Luigi 管道,该管道检查是否存在手动创建的文件,如果存在,则继续执行下一个任务:

我想要的是在我创建手动文件并将其粘贴到路径中之后 luigi 继续。当我这样做时,它不是查找文件并继续执行任务,而是每隔几秒钟重新检查一个新任务:

经过相当长的时间(15-20 分钟左右)后,luigi 将找到该文件,然后它可以根据需要继续。我能做些什么来防止这种延迟?我希望 luigi 在文件存在后立即继续。

0 投票
1 回答
206 浏览

luigi - LUIGI 中作业状态的持久性存储

我最近开始使用 LUIGI 并且有几个问题我无法使用文档回答自己

问题是关于 LUIGI 中的作业状态
使用 Luigi,我们可以设置一些全局配置(record_task_history)来跟踪作业的历史记录,它需要设置一个 mysql 数据库。然后可以稍后通过 luigi 可视化器检索和显示此历史记录。

  1. 是否支持其他持久性存储?这可以在文本文件中完成吗?(Visualizer 可能无法正常工作,但如果我能以编程方式获取历史状态,我可以接受)

  2. luigi 什么时候真正将状态数据写入持久存储?它是否将其保存在内存中以运行作业并在作业完成后立即转储数据?

- 学习者

0 投票
1 回答
343 浏览

python-2.7 - 如何使用 Luigi 将文件中的数据插入到 postgres 表中?

我收到错误“异常:无法将无映射到任务/字典/列表”。我是路易吉的新手。请告知如何通过从文件中读取数据来插入 postgres 表。

0 投票
1 回答
2515 浏览

python - 如何使 Luigi 任务生成内存列表作为目标

我正在尝试使用luigi编写一个 etl 管道。据我从文档中了解到,luigi 中的任务可以生成一个目标,该目标可以是某种类型的文件存储或数据库。为了减少处理时间,我希望有一个内存列表作为输出。这可能吗?我必须创建自定义目标吗?

0 投票
1 回答
566 浏览

python - 如何使用 Luigi 更新和删除数据?

luigi 可以使用什么模块将数据更新/删除到数据库中?我使用复制到表和 sql alchemy 来插入数据。对于更新和删除文件不清楚如何实现?请指教。

0 投票
2 回答
411 浏览

python - Luigi 参数如何工作?

所以我有两个任务(比如说TaskA和TaskB)。我希望这两个任务每小时运行一次,但 TaskB 需要 TaskA。TaskB 没有任何参数,但 TaskA 有两个参数,分别代表天和小时。如果我在命令行上运行 TaskB,我需要传递参数吗?

0 投票
0 回答
446 浏览

docker - cronjob 未在 docker swarm 部署上执行

我正在使用 docker swarm 来控制部署,其中包含用于机器学习应用程序的多个容器。

我有一个 bash 脚本,它发送要由某些容器执行的命令。当我在控制台中手动执行此脚本时,一切正常,命令被发送到容器并运行但是当我添加相同的脚本以由 cron 执行时,它不起作用(我正在使用 crontab - e 命令,以便与我的用户一起执行脚本)

这是我们需要运行的脚本的一个示例:

cron 行是: 16 * * * * sh /path/script.sh

由于我们使用 swarm,首先我们需要进入 director 的 env,然后我们使用 docker exec 执行命令(在本例中是使用 spotify 的 luigi 工具启动作业的命令)

我错过了什么?谢谢

0 投票
4 回答
3401 浏览

python - 如何将多个参数传递给 Luigi 子任务?

我有一个 Luigi 任务,它是requires一个子任务。子任务取决于父任务(即正在执行的任务)传递的参数require。我知道您可以通过设置指定子任务可以使用的参数...

...然后在子任务上,通过设置接收参数...

不过,这似乎只允许您通过一个参数。通过任意数量的参数(无论我想要什么类型)发送的最佳方式是什么?真的我想要这样的东西:

正如你所看到的,我尝试使用luigi.DictParameter而不是直行luigi.Parameter,但是TypeError: unhashable type: 'dict'当我运行上面的代码时,我是从 Luigi 深处的某个地方得到的。

运行 Python 2.7.11、Luigi 2.1.1