我一直在使用 py4j 围绕一个不太友好的 Java 库构建一个用户友好的 Python 库。在大多数情况下,这很容易,py4j 一直是一个很棒的工具。但是,我在 Python 和 Java 之间发送矩阵时遇到了障碍。
具体来说,我在 java 中有一个静态函数,它接受一个整数矩阵作为其参数:
public class MyClass {
// ...
public static MyObject create(int[][] matrix) {
// ...
}
}
我希望能够像这样从 Py4j 调用它:
def create_java_object(numpy_matrix):
# <code here checks that numpy_matrix is a (3 x n) integer matrix>
# ...
return java_instance.jvm.my.namespace.MyClass.create(numpy_matrix)
这不起作用,这并不太令人惊讶,如果将numpy_matrix
其转换为普通 python 列表的列表,它也不起作用。我曾期望解决方案是构造一个 java 数组并在函数调用之前传输数据:
def create_java_object(numpy_matrix):
# <code here checks that numpy_matrix is a (3 x n) integer matrix>
# ...
java_matrix = java_instance.new_array(java_instance.jvm.int, 3, n)
for i in range(numpy_matrix.shape[1]):
java_matrix[0][i] = int(numpy_matrix[0, i])
java_matrix[1][i] = int(numpy_matrix[1, i])
java_matrix[2][i] = int(numpy_matrix[2, i])
return java_instance.jvm.my.namespace.MyClass.create(java_matrix)
现在,这段代码运行正常。但是,它需要大约两分钟才能运行。顺便说一下,我正在使用的矩阵大约是 (3 x ~300,000) 个元素。
在 Py4j 中是否有一种规范的方法可以做到这一点,而不需要大量的时间来转换矩阵?我不介意花一两秒钟,但这太慢了。如果没有为这种通信设置 Py4j,是否有适用于 Python 的 Java 互操作库?
注意:Java 库将int[][]
矩阵视为不可变数组;即,它从不尝试修改它。