我正在研究谷歌优化以加快我的一些数据工作——本周之前从未使用过它,但我喜欢我看到的很多东西。
到目前为止,我最大的问题是是否可以从 Refine 调用外部 python 函数。我知道您可以在内部调用 jython,但这不提供对基于 C 的 python 库(例如 lxml)的访问,而且我在其他地方有我想集成的脚本,没有很多复制粘贴或重写的麻烦。
在 Refine 中有哪些选项可以执行此操作?我愿意发挥创造力——我只想要一个稳定、可重复使用的解决方案。
我正在研究谷歌优化以加快我的一些数据工作——本周之前从未使用过它,但我喜欢我看到的很多东西。
到目前为止,我最大的问题是是否可以从 Refine 调用外部 python 函数。我知道您可以在内部调用 jython,但这不提供对基于 C 的 python 库(例如 lxml)的访问,而且我在其他地方有我想集成的脚本,没有很多复制粘贴或重写的麻烦。
在 Refine 中有哪些选项可以执行此操作?我愿意发挥创造力——我只想要一个稳定、可重复使用的解决方案。
正如Google Refine Wiki所说:
lxml 不能在 Jython 中工作,因为 lxml 具有 CPython 的 C 绑定(常规 Python),因此不能在仅 Jython / Java 的 Refine 中工作,并且没有内置的 CPython 解释器
但是您可以尝试使用 Google Refine Python 客户端库来创建项目并以编程方式操作您的数据。
我打算将 reclosedev 的答案标记为已接受,但故事还有更多内容。
这个问题的另一个答案是您可以设置自己的基于 python 的 API。对于这个项目,我能够设置一个在本地服务器上运行的 django 应用程序。将 API 构建到我现有的库中只用了一个小时左右。
比我想要的更麻烦,但它符合这个项目的要求,而不需要花费太多时间。