5

我使用一切正常连接到 Blaze 中的 sqlite 数据库, df = bz.Data("sqlite:///<mydatabase>) 但我不知道如何在与 df 的交互中提供用户定义的函数。我在 df 中有一个名为 IP 的列,它是包含 IP 地址的文本。我还有一个 toSubnet (x, y) 函数,它以文本格式接收 IP 地址 (x) 并返回其 /y 子网。例如:

out = toSubnet('1.1.1.1',24)
out
1.1.1.0/24

现在,如果我想将所有 IP 映射到它们的 /14 子网,我使用:

df.IP.map(lambda x:toSubnet(x,14),'string')

当后端是 CSV 时有效。但是有了 sqlite 后端,我得到了NotImplementedError. 这里有什么问题?

4

1 回答 1

6

注意:这并没有告诉你如何做你想做的事,但它解释了为什么它不起作用,以及让它与 SQLite 一起工作的可能的下一步。

您遇到的问题是,针对任意 SQL 数据库有效地执行任意 Python 代码非常困难。

Blaze 使用 SQLAlchemy 获取用户代码并尽可能将其转换为 SQL,我认为这没有办法做到这一点。

由于几乎每个数据库都有不同的处理用户定义函数 (UDF) 的方式,因此构建一个允许以下功能的 API 需要做很多工作:

  1. 用户在 Python 中定义函数
  2. 将纯 Python 函数转换为数据库原生的 UDF。

也就是说,SQLite 的 Python 接口有一种方法可以注册可以在 SQL 语句中执行的 Python 函数:

https://docs.python.org/2/library/sqlite3.html#sqlite3.Connection.create_function

目前没有一种方法可以使用 SQL 后端通过 Blaze 表达 UDF,尽管这可以实现为允许用户通过底层数据库的 db API 注册函数的新表达式类型。

于 2015-11-02T17:19:00.450 回答