问题标签 [luigi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Luigid 语法错误
我正在尝试在中央调度程序模式下使用 luigi。每当我尝试使用命令运行中央调度程序时
它返回一个语法错误
python - 为 WrapperTask 重试 .complete()
我正在使用 Luigi 运行多个任务,然后我需要将输出批量传输到标准化文件位置。我写了一个 WrapperTask 用一个重写的complete()
方法来做到这一点:
complete()
但是当过程实际完成时,我无法获得要调用的条件部分。
我认为这是因为其他人指出的异步行为,但我不知道如何解决它。
我尝试使用以下命令行参数运行 Luigi:
但这似乎无法正常工作。这是处理此类任务的正确方法吗?
另外,我很好奇——有没有人有过这个--worker-retry-external-task
命令的经验?我很难理解它。
在源代码中,
被调用以确定 LuigiTask 是否有run()
方法,而 aWrapperTask
没有。因此,我希望--retry-external-task
标志在complete()
完成之前重试此操作,从而执行操作。但是,只是在解释器中玩弄让我相信:
这段代码片段并没有按照它认为的那样做。
我是不是在这里离群?
python - Python Luigi - 满意时继续执行外部任务
我正在研究一个 Luigi 管道,该管道检查是否存在手动创建的文件,如果存在,则继续执行下一个任务:
我想要的是在我创建手动文件并将其粘贴到路径中之后 luigi 继续。当我这样做时,它不是查找文件并继续执行任务,而是每隔几秒钟重新检查一个新任务:
经过相当长的时间(15-20 分钟左右)后,luigi 将找到该文件,然后它可以根据需要继续。我能做些什么来防止这种延迟?我希望 luigi 在文件存在后立即继续。
luigi - LUIGI 中作业状态的持久性存储
我最近开始使用 LUIGI 并且有几个问题我无法使用文档回答自己
问题是关于 LUIGI 中的作业状态
使用 Luigi,我们可以设置一些全局配置(record_task_history)来跟踪作业的历史记录,它需要设置一个 mysql 数据库。然后可以稍后通过 luigi 可视化器检索和显示此历史记录。
是否支持其他持久性存储?这可以在文本文件中完成吗?(Visualizer 可能无法正常工作,但如果我能以编程方式获取历史状态,我可以接受)
luigi 什么时候真正将状态数据写入持久存储?它是否将其保存在内存中以运行作业并在作业完成后立即转储数据?
- 学习者
python-2.7 - 如何使用 Luigi 将文件中的数据插入到 postgres 表中?
我收到错误“异常:无法将无映射到任务/字典/列表”。我是路易吉的新手。请告知如何通过从文件中读取数据来插入 postgres 表。
python - 如何使 Luigi 任务生成内存列表作为目标
我正在尝试使用luigi编写一个 etl 管道。据我从文档中了解到,luigi 中的任务可以生成一个目标,该目标可以是某种类型的文件存储或数据库。为了减少处理时间,我希望有一个内存列表作为输出。这可能吗?我必须创建自定义目标吗?
python - 如何使用 Luigi 更新和删除数据?
luigi 可以使用什么模块将数据更新/删除到数据库中?我使用复制到表和 sql alchemy 来插入数据。对于更新和删除文件不清楚如何实现?请指教。
python - Luigi 参数如何工作?
所以我有两个任务(比如说TaskA和TaskB)。我希望这两个任务每小时运行一次,但 TaskB 需要 TaskA。TaskB 没有任何参数,但 TaskA 有两个参数,分别代表天和小时。如果我在命令行上运行 TaskB,我需要传递参数吗?
docker - cronjob 未在 docker swarm 部署上执行
我正在使用 docker swarm 来控制部署,其中包含用于机器学习应用程序的多个容器。
我有一个 bash 脚本,它发送要由某些容器执行的命令。当我在控制台中手动执行此脚本时,一切正常,命令被发送到容器并运行但是当我添加相同的脚本以由 cron 执行时,它不起作用(我正在使用 crontab - e 命令,以便与我的用户一起执行脚本)
这是我们需要运行的脚本的一个示例:
cron 行是: 16 * * * * sh /path/script.sh
由于我们使用 swarm,首先我们需要进入 director 的 env,然后我们使用 docker exec 执行命令(在本例中是使用 spotify 的 luigi 工具启动作业的命令)
我错过了什么?谢谢
python - 如何将多个参数传递给 Luigi 子任务?
我有一个 Luigi 任务,它是requires
一个子任务。子任务取决于父任务(即正在执行的任务)传递的参数require
。我知道您可以通过设置指定子任务可以使用的参数...
...然后在子任务上,通过设置接收参数...
不过,这似乎只允许您通过一个参数。通过任意数量的参数(无论我想要什么类型)发送的最佳方式是什么?真的我想要这样的东西:
正如你所看到的,我尝试使用luigi.DictParameter
而不是直行luigi.Parameter
,但是TypeError: unhashable type: 'dict'
当我运行上面的代码时,我是从 Luigi 深处的某个地方得到的。
运行 Python 2.7.11、Luigi 2.1.1