问题标签 [apache-arrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
261 浏览

python - 如何读取和更新 python Plasma 中的对象?

我刚刚发现了plasma https://arrow.apache.org/docs/python/plasma.html#putting-and-getting-python-objects 并且想存储一个对象,获取它,更新并写回商店。可能吗?我失败的试验现在看起来如下:

0 投票
2 回答
4554 浏览

apache-spark - AWS EMR - ModuleNotFoundError:没有名为“pyarrow”的模块

我在使用 Apache Arrow Spark 集成时遇到了这个问题。

使用带有 Spark 2.4.3 的 AWS EMR

在本地 spark 单机实例和 Cloudera 集群上测试了这个问题,一切正常。

在 spark-env.sh 中设置这些

在火花壳中证实了这一点

使用 apache 箭头集成运行基本 pandas_udf 会导致错误

aws emr 上的错误 [在 cloudera 和本地机器上没有错误]

有人知道发生了什么吗?一些可能的想法...

PYTHONPATH 是否会因为我没有使用而导致问题anaconda

它与 Spark 版本和 Arrow 版本有关吗?

这是最奇怪的事情,因为我在所有 3 个平台 [本地桌面、cloudera、emr] 中使用相同的版本,只有 EMR 无法正常工作......

我登录了所有 4 个 EMR EC2 数据节点并测试了我可以导入pyarrow并且它工作得很好,但在尝试使用它时却不行spark

0 投票
1 回答
125 浏览

r - 带有 apache 箭头的 Sparklyr R 失败,意外终止:找不到对象“as_tibble”

我正在尝试使用带箭头的 sparklyr来提高性能,例如此处所示,但是遇到了错误。

这是一个(希望)可重现的示例:

使用不带箭头的 sparklyr 效果很好:

但是,将箭头添加到混合中并运行相同会产生错误:

错误消息似乎没有太大帮助,但查看工作日志我看到:

错误 sparklyr:RScript (6891) 意外终止:找不到对象“as_tibble”

相关会话信息:

  • R 版本 3.6.0,x86_64-redhat-linux-gnu(64 位)
  • 包:箭头_0.14.1、dplyr_0.8.3、sparklyr_1.0.1
  • 火花版本 2.4.3
0 投票
1 回答
587 浏览

pyspark - 当 PySpark 将 Hive 表读取到 pandas 时,Apache Arrow OutOfMemoryException

我搜索了这种错误,但找不到任何有关如何解决它的信息。这是我执行以下两个脚本时得到的结果:

写.py

读取.py

0 投票
2 回答
2894 浏览

python - 如何使用 PyArrow 的 `read_csv` 读取带有客户分隔符且没有标题的 CSV?

我有一个看起来像的文件

那么如何指定明确的列名呢?在文档中找不到。

0 投票
1 回答
613 浏览

feather - 如何压缩和解压缩 Arrow 或 Feather 文件?

我计划将数据文件格式从镶木地板更改为羽毛。Parquet 有压缩选项(lz4 等),我已经使用过它们。但我在羽毛或箭头文件中找不到它们。不支持压缩吗?

0 投票
1 回答
797 浏览

c# - 在 C# 中使用 ParquetSharp 库进行基于行的访问,该库基于 apache-parquet-cpp(箭头)

有谁知道如何ParquetSharp执行对镶木地板文件的基于行的读取访问?这是我必须去的地方,但inputStream抛出了一个无法转换为字符串的错误。

ParquetSharp使用TTuple,但我在任何地方都找不到它的任何定义。

我知道镶木地板是基于列的,所以这不是最有效的阅读方法,但它对我的工作很方便。

问候

0 投票
1 回答
260 浏览

python - Spark Arrow、toPandas() 和宽变换

使用箭头优化时,toPandas() 实际上做了什么?

生成的 pandas 数据帧对于 pandas 数据帧上的广泛转换(需要数据混洗)是否安全,例如。.merge操作?组和聚合呢?我应该期待什么样的性能限制?

我试图在可能的情况下标准化为 Pandas 数据帧,因为易于单元测试和与内存对象的可交换性,而无需启动可怕的 spark 实例。

0 投票
1 回答
853 浏览

python - python - 在python中的PyArrow和C ++中的Arrow之间进行接口时如何将PyArrow表转换为Arrow表

我有一个 C++ 库,它是针对 Apache Arrow C++ 库构建的,并使用 Pybind 绑定到 python。我希望能够在 C++ 中编写一个函数来获取一个用 PyArrow 构建的表,例如:

传入 PyArrow 表,如:

如果我像上面那样做一个简单的函数,我会得到:

我还尝试编写一个需要 a 的函数,py::object.cast<arrow::Table>()我无法进行强制转换:

有谁知道如何让它工作?

0 投票
2 回答
6397 浏览

python - 逐行构造pyarrow表的最快方法

我有一个大字典,我想遍历它来构建一个 pyarrow 表。字典的值是不同类型的元组,需要解包并存储在最终 pyarrow 表中的单独列中。我确实提前知道架构。键也需要存储为列。我在下面有一种方法可以逐行构造表格 - 还有另一种更快的方法吗?对于上下文,我想将一个大字典解析为一个 pyarrow 表以写出一个镶木地板文件。RAM 使用比 CPU 时间更重要。我不想下拉到箭头 C++ API。