问题标签 [apache-arrow-plasma]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
312 浏览

python - python ray - pyarrow.lib.ArrowInvalid:超过最大大小(2GB)

我正在尝试使用 ray 加载和处理大文件。

我使用 ray 的目的是对文件进行多处理并提高解决方案的速度。

我一直遇到这个 pyarrow 错误:pyarrow.lib.ArrowInvalid: Maximum size exceeded (2GB). 它似乎与等离子对象存储有关。

我尝试使用 huge_pages 并将其挂载到等离子存储中,在初始化时增加射线对象存储的大小。

任何帮助都会很棒。

0 投票
1 回答
149 浏览

python - 任何 Python API 来获取等离子的剩余内存?

我对等离子比较陌生。想问一下使用 Python API 连接到客户端后pyarrow.plasma,有没有 API 可以找到当前 Plasma 对象存储的剩余可用内存?似乎使用client.list()可以获取所有对象并且每个对象都有大小信息,我可以总结一下......但是有没有更简单的方法?将数据放入等离子时,如果存储已满,一些以前的对象将被驱逐,此日志仅出现在控制台中,对吗?那么在运行 Python 程序时,用户会不会察觉到存储空间已满,有些数据丢失了?

希望得到一些关于这方面的指导!

0 投票
1 回答
158 浏览

python - 使用 cython 和指向内存起始地址的指针更改不可变的等离子存储 numpy 对象

ray.put(large_2d_array)用来存储一个大型 numpy 2D 布尔数组,然后在工作进程中,我从这个共享的 numpy 数组中取出一列并将其传递给 cython 函数,然后通过cdef cnp.npy_bool view = &sliced_array[0]. 使用此视图,我可以修改底层缓冲区(将一些索引设置为 True)。

由于等离子存储对象是不可变的,因此我可能会面临哪些未知问题?

如果有人可以对此有所了解,我会很高兴。

代码模板:

PS:没有两个工人可以同时访问同一个切片。每个切片(在这种情况下为列)仅被访问一次并且仅被修改/写入一次。

尝试演员方法 这仍然不起作用,我想我没有做错什么。